- 2
- 0
- 约2.53万字
- 约 36页
- 2026-06-04 发布于江西
- 举报
2025年数据湖技术应用手册
第1章数据湖架构演进与核心组件
1.1从数据仓库到数据湖的技术定位
数据仓库(DataWarehouse)的核心范式是“聚合式”的,旨在通过抽取、转换、加载(ETL)将历史数据集中存储,以支持业务报表和分析决策;而数据湖(DataLake)则代表了“原始性”的存储范式,其首要目标是“全量采集”,允许以原始格式(如Parquet,AVRO,ORC)存储海量非结构化、半结构化及结构化数据,为未来分析提供无限扩展的数据底座。在技术定位上,数据仓库通常遵循“一次构建,多次使用”的模型,数据生命周期较短且经过严格清洗;而数据湖遵循“一次采集,多次消费”的模型,数据生命周期长,允许数据在存储阶段保持原始形态,仅在需要时进行按需切片、过滤和转换(CDC/CDP),从而极大降低数据准备成本。
用户视角下,数据仓库侧重于“查询分析”,即基于预定义模型快速回答“发生了什么”;数据湖侧重于“探索分析”,即基于灵活模型回答“想知道什么”,支持从代码、脚本甚至自然语言直接读取数据,无需预先定义表结构。从数据流向看,传统数据仓库依赖复杂的ETL管道,数据经过多次清洗和标准化后再进入系统,容错率低;数据湖采用实时或准实时的流式处理机制,数据以原始形式进入湖中,通过元数据管理(MetadataManagement)自动识别数据类型,实现毫秒级的数据
您可能关注的文档
- 建筑工程施工管理与质量控制.docx
- 2025年环境保护与安全防护手册.docx
- 医疗健康保险产品设计与运营手册(执行版).docx
- 食品安全规范与质量控制手册(执行版).docx
- 2025年冶金生产安全与环境保护手册.docx
- 运输管理与仓储作业规范手册(执行版).docx
- 2025年印刷设计与管理规范手册.docx
- 2025年环保设施设计与运行管理手册.docx
- 银行风险管理信息化建设手册(执行版).docx
- 福建省福州市马尾区2022-2023学年七年级上学期期末生物试卷.pdf
- 2022年重庆一中高考历史考前适应性试卷.pdf
- 深圳的生物多样性保护(2026)-深圳市生态环境局.pptx
- 2026年ASCO生物医学追踪数据监测医疗保健规划师 2026 Biomedtracker Datamonitor Healthcare ASCO Planner.pptx
- 模板安全设施设计专篇正文(初稿).pdf
- 北京市朝阳区2022-2023学年高三上学期期末生物试卷.pdf
- 北京市东城区2022-2023学年高三上学期期末语文试题.pdf
- 北京市平谷区2022-2023学年高二上学期期末语文试卷.pdf
- 北京市顺义区2022-2023学年高二上学期期末质量检测化学试题.pdf
- 北京市西城区2022-2023学年高三上学期期末语文试题.pdf
- 福建省福州第四中学2022-2023学年高二上学期期末考试化学试卷.pdf
原创力文档

文档评论(0)