- 2
- 0
- 约2.84万字
- 约 43页
- 2026-05-30 发布于江西
- 举报
2025年大数据挖掘与分析手册
第1章大数据架构演进与云原生基础
1.1传统数据仓库与现代数据湖的架构对比
在传统数据仓库(DataWarehouse)架构中,核心原则是“存储-处理分离”,数据经过清洗、转换和加载(ETL)后,被存储在结构化的、预定义的表中,旨在通过复杂的SQL查询进行离线分析,其特点是数据一致性高但扩展性受限。与之相对,现代数据湖(DataLake)采用“存储-处理分离”但更强调“原始数据全量存储”的理念,它允许以原始格式(如Parquet,ORC,Avro)存储未加工的海量非结构化数据,支持列式存储以优化读取性能,适合探索性数据分析(EDA)和机器学习模型训练。
两者在数据生命周期管理上存在显著差异:传统数据仓库侧重于“最终一致性”,确保报表数据的准确性,而数据湖侧重于“实时一致性”,允许数据在写入后随时间推移逐步被清洗和标准化。在硬件依赖方面,传统数据仓库通常依赖昂贵的专用硬件集群(如Oracle或SAPHANA集群),而数据湖更倾向于使用成本更低的通用对象存储(如AWSS3或阿里云OSS),并配合廉价计算实例(如EC2或云原生容器)进行弹性扩展。传统架构的查询语言主要依赖关系型数据库的SQL,而数据湖更广泛地支持多种查询引擎,包括基于列的扫描、向量相似度搜索以及分布式计算框架(如Spark)的Map
原创力文档

文档评论(0)