湖仓一体架构概览
目录一、整体架构底座与分层逻辑二、端到端完整数据流1. 第一阶段全量数据入湖数据湖层2. 第二阶段数仓域分层加工数据仓库层3. 第三阶段特征存储双链路加工特征存储层1离线特征链路批量生成2在线特征链路实时服务4. 第四阶段消费与回流闭环三、核心架构优势在湖仓一体Lakehouse架构下三者并非独立堆叠而是基于统一的底层存储与元数据体系形成分层协作的数据流核心是一份原始数据、多域分层加工、域间能力共享彻底避免传统架构下的数据冗余与口径不一致问题。以下是湖仓一体架构下数据湖、数据仓库与特征存储的完整数据流图示一、整体架构底座与分层逻辑湖仓一体以「统一对象存储 开放表格式 全局元数据中心」为底层底座三者作为三个独立的逻辑域构建其上共享底层基础设施原始数据域即数据湖本体承载全量原生数据是整个架构唯一的数据源底座业务分析域即构建于湖上的数据仓库承载标准化的业务指标与明细数据机器学习域即特征存储复用湖仓的存储与计算能力仅补充ML专属的元数据管理与在线服务能力二、端到端完整数据流1. 第一阶段全量数据入湖数据湖层这是整个数据流的唯一源头所有原始数据仅采集一次、存储一份数据源覆盖业务数据库CDC、用户行为日志、IoT数据流、第三方外部数据、图片/音视频等非结构化数据入湖方式批量离线导入、实时CDC同步、流式接入Kafka Flink并存存储形态原始数据以Parquet/ORC列式格式存入对象存储S3/OSS/ADLS通过Apache Iceberg/Delta Lake/Hudi等开放表格式统一管理Schema、数据版本与快照对应数仓分层ODS操作数据层保留最细粒度的原始数据2. 第二阶段数仓域分层加工数据仓库层基于湖上的ODS原始数据通过ELT模式完成标准化数仓建模产出业务分析可用的高质量数据同时为特征工程提供清洗后的公共数据源DWD明细层对原始数据做清洗、脱敏、格式标准化、维度关联保留事务级明细粒度DWS汇总层按用户、商品、订单等业务主题做轻度聚合形成公共维度与公共指标ADS应用层面向特定报表场景做高度聚合直接对接BI输出计算引擎Spark、Trino、Presto等按需弹性调用计算与存储完全解耦关键衔接DWD/DWS层的标准化数据会直接作为特征工程的输入避免算法团队重复做数据清洗与口径对齐3. 第三阶段特征存储双链路加工特征存储层这是湖仓一体架构的核心差异化设计特征存储不独立建设底层存储离线特征直接落地在数据湖中仅在线特征独立部署低延迟存储从根源解决训练-服务一致性问题。1离线特征链路批量生成数据源直接读取湖仓中ODS/DWD/DWS层的开放表无需重复搬运数据加工过程通过Spark批量执行特征工程逻辑窗口统计、交叉特征、编码转换等生成离线特征宽表存储位置离线特征仍以Iceberg/Delta表格式存储在数据湖对象存储中特征存储仅管理其元数据核心能力复用湖仓表的**时间旅行Time Travel**能力实现点时间回溯Point-in-Time Join精准还原历史任意时刻的特征值彻底避免训练时的数据穿越问题用途供给模型离线训练、批量特征回溯、特征探索分析2在线特征链路实时服务数据同步需在线调用的离线特征通过特征存储的同步机制全量批量同步 增量流式同步从湖仓的离线特征表同步到在线KV存储Redis、Cassandra、DynamoDB等实时特征补充用户实时行为等流式数据经Flink加工后同时写入湖仓实时表和在线特征存储保证流批口径一致一致性保障离线与在线特征共用同一套加工逻辑与计算口径无需分别开发两套代码从根源消除训练-服务偏差Training-Serving Skew用途供给线上模型推理的毫秒级特征查询4. 第四阶段消费与回流闭环业务分析侧数仓ADS层对接BI报表、可视化工具、自助分析平台服务业务决策机器学习侧离线批量导出特征数据集用于模型训练在线通过API/SDK调用特征完成推理数据回流模型推理日志、预测结果、线上效果数据回流到数据湖原始层用于模型监控、效果归因与特征迭代形成完整数据闭环三、核心架构优势无数据冗余原始数据、明细数据仅存一份各域仅存储自身加工结果避免传统架构下数仓与特征平台各自维护一套数据的问题口径天然统一共享元数据与血缘特征口径与业务指标口径对齐特征血缘可直接追溯到湖仓原始表成本最优存储计算彻底分离冷数据存低成本对象存储计算资源按需扩缩容开放不绑定基于开放表格式构建不绑定特定厂商引擎可灵活切换计算与服务组件需要我补充一份基于开源组件Iceberg Spark Feast的落地技术栈清单吗

相关新闻

好用的亚洲汽美抛光赛事供应商

好用的亚洲汽美抛光赛事供应商

汽车美容行业正迎来爆发期,但不少从业者却陷入“技术内卷”的困局——天天埋头苦干,收入却上不去,想靠比赛镀金,又怕选了“水货”赛事白花钱。我们走访了超过200位一线技师,结合真实参赛数据和行业调研,为你…

2026/7/1 1:31:55阅读更多 →
浏览器中的专业SVG编辑器:如何用SVG-Edit解决矢量图形编辑难题

浏览器中的专业SVG编辑器:如何用SVG-Edit解决矢量图形编辑难题

浏览器中的专业SVG编辑器:如何用SVG-Edit解决矢量图形编辑难题 【免费下载链接】svgedit Powerful SVG-Editor for your browser 项目地址: https://gitcode.com/gh_mirrors/sv/svgedit 在当今数字设计领域,矢量图形编辑已成为设计师和开发者的核…

2026/7/1 1:31:55阅读更多 →
双向链表,反转链表

双向链表,反转链表

力扣题目链接 改变每根指针的方向,注意因为cur->nextpre;,所以要新设置一个节点tmp储存原来的next节点,不然再继续到next就直接到pre去了。 class Solution { public:ListNode* reverseList(ListNode* head) {ListNode*preNULL;ListNode*tmp;ListNod…

2026/7/1 1:31:55阅读更多 →
Java毕设选题推荐:基于 SpringBoot 的农户农产品展销助农平台的设计与实现 基于 SpringBoot 的智慧农商便民服务平台【附源码、mysql、文档、调试+代码讲解+全bao等】

Java毕设选题推荐:基于 SpringBoot 的农户农产品展销助农平台的设计与实现 基于 SpringBoot 的智慧农商便民服务平台【附源码、mysql、文档、调试+代码讲解+全bao等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/7/1 2:42:04阅读更多 →
分行业专业财会分组,金算盘精准匹配不同产业财税需求

分行业专业财会分组,金算盘精准匹配不同产业财税需求

不同行业经营模式、票据类型、申报规范差异较大,统一财会团队很难兼顾各行业细节,阿克苏金算盘财税按照行业划分专属财会小组,商贸、工程、农资、餐饮、加工行业分组专项对接,精准匹配行业专属财税需求,细分专业团队的…

2026/7/1 2:42:04阅读更多 →
Java计算机毕设之基于 SpringBoot 的农产品流通助农管理平台的设计与实现 基于 SpringBoot 的乡村农商数字化交易平台(完整前后端代码+说明文档+LW,调试定制等)

Java计算机毕设之基于 SpringBoot 的农产品流通助农管理平台的设计与实现 基于 SpringBoot 的乡村农商数字化交易平台(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/7/1 2:42:04阅读更多 →
【课程设计/毕业设计】基于 Java 的乡村振兴农产品电商服务平台的设计与实现 基于 Java 的智慧农商信息发布与交易平台【附源码、数据库、万字文档】

【课程设计/毕业设计】基于 Java 的乡村振兴农产品电商服务平台的设计与实现 基于 Java 的智慧农商信息发布与交易平台【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/7/1 2:42:04阅读更多 →
【毕业设计】基于 SpringBoot 的乡村振兴助农电商平台的设计与实现 基于 SpringBoot 的农商产品供需对接管理系统(源码+文档+远程调试,全bao定制等)

【毕业设计】基于 SpringBoot 的乡村振兴助农电商平台的设计与实现 基于 SpringBoot 的农商产品供需对接管理系统(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/7/1 2:42:04阅读更多 →
SeaweedFS:33000 Star 的分布式文件系统,小文件读写做到了极致

SeaweedFS:33000 Star 的分布式文件系统,小文件读写做到了极致

文章目录SeaweedFS:33000 Star 的分布式文件系统,小文件读写做到了极致架构设计:简单到只有一种思路性能数据兼容性做得不错云集成和分层存储部署有多简单跟其他方案的对比哪些场景适合用SeaweedFS:33000 Star 的分布式文件系统&a…

2026/7/1 2:37:04阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/30 4:03:30阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/30 4:36:27阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/1 0:01:44阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/1 0:01:44阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/1 0:01:44阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/1 0:01:44阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/1 0:01:44阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/1 0:01:44阅读更多 →