- 2
- 0
- 约2.52万字
- 约 37页
- 2026-04-20 发布于江西
- 举报
大数据+行业应用手册(执行版)
第1章大数据基础架构与数据处理
1.1数据湖与数据仓库架构对比
数据仓库(DataWarehouse)采用分层架构设计,核心逻辑是“先清洗、后分析”,通过ETL工具将原始数据抽取、转换并加载到标准化的数据仓库中,旨在构建一个面向主题、面向行、面向时的多维分析环境,确保数据的统一口径和历史可追溯性;而数据湖(DataLake)则采用“存储即分析”的架构,旨在以低成本、高吞吐的方式存储海量非结构化及半结构化原始数据,不经过复杂的清洗转换,直接保留数据的原始形态,为未来的灵活分析预留空间。在架构选型上,数据仓库适合需要严格报表输出、合规审计及历史数据回查的业务场景,其通过Schema-on-Write(按写入模式定义结构)确保了数据的规范性;数据湖适合数据驱动的研发、机器学习训练及实时流计算的场景,其通过Schema-on-Read(按读取模式定义结构)允许数据在存储时保持任意格式,极大提升了数据利用效率。
两者在数据生命周期管理上存在显著差异,数据仓库强调数据的“单一事实来源”(SingleSourceofTruth),所有分析报表必须源自同一张数据仓库表,以保证业务逻辑的一致性;数据湖则允许数据在存储层就存在多种格式和版本,支持数据在存储时即具备分析能力,但分析时需进行二次清洗和转换。从技术实现路径看,数据仓库通常依赖
您可能关注的文档
最近下载
- JTG 5210-2018 公路技术状况评定标准.pdf VIP
- 乡镇发展农业产业规划方案.pptx VIP
- 工业机器人系统运维员实操试卷(技师)(试卷六).docx VIP
- 2025年工会社会工作者招聘考试综合题库及答案.docx VIP
- (截止2020年6月1日)药食同源、新资源食品(新食品原料)、终止审查、普通食品等汇总.pdf
- JB-T6141.3-1992重载齿轮 渗碳金相检验.pdf VIP
- (正式版)T∕GDSTD 025-2026 广东省全民所有自然资源资产保护和使用规划编制技术指南.pdf VIP
- 2026年春江苏开放大学社会保障学060200期末综合大作业答案.doc
- 民事诉讼法(第三版)全套教学课件.ppt
- 工业机器人系统运维员实操试卷(高级工)(试卷六).docx VIP
原创力文档

文档评论(0)