2025年大数据挖掘与分析手册.docxVIP

下载本文档

2
0
约2.84万字
约 43页
2026-05-30 发布于江西
举报

2025年大数据挖掘与分析手册.docx

2025年大数据挖掘与分析手册

第1章大数据架构演进与云原生基础

1.1传统数据仓库与现代数据湖的架构对比

在传统数据仓库（DataWarehouse）架构中，核心原则是“存储-处理分离”，数据经过清洗、转换和加载（ETL）后，被存储在结构化的、预定义的表中，旨在通过复杂的SQL查询进行离线分析，其特点是数据一致性高但扩展性受限。与之相对，现代数据湖（DataLake）采用“存储-处理分离”但更强调“原始数据全量存储”的理念，它允许以原始格式（如Parquet,ORC,Avro）存储未加工的海量非结构化数据，支持列式存储以优化读取性能，适合探索性数据分析（EDA）和机器学习模型训练。

两者在数据生命周期管理上存在显著差异：传统数据仓库侧重于“最终一致性”，确保报表数据的准确性，而数据湖侧重于“实时一致性”，允许数据在写入后随时间推移逐步被清洗和标准化。在硬件依赖方面，传统数据仓库通常依赖昂贵的专用硬件集群（如Oracle或SAPHANA集群），而数据湖更倾向于使用成本更低的通用对象存储（如AWSS3或阿里云OSS），并配合廉价计算实例（如EC2或云原生容器）进行弹性扩展。传统架构的查询语言主要依赖关系型数据库的SQL，而数据湖更广泛地支持多种查询引擎，包括基于列的扫描、向量相似度搜索以及分布式计算框架（如Spark）的Map

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2025年大数据挖掘与分析手册.docxVIP