数据湖技术应用手册(执行版).docx

数据湖技术应用手册(执行版)

第1章数据湖架构设计与选型

1.1数据湖核心概念与演进路径

数据湖(DataLake)与传统数据仓库(DataWarehouse)的根本区别在于其设计初衷:数据湖是面向“全量、原始、未结构化”数据的存储基础设施,旨在以低成本容纳海量数据并支持实时或准实时的分析需求;而传统数据仓库则侧重于经过清洗、标准化和主题化处理的“结构化”数据,主要用于报表和OLTP分析。数据湖的演进路径经历了从“冷存储”到“热存储”再到“智能湖”的三个阶段:早期阶段主要依赖对象存储解决低成本存储问题,但随着数据量激增,出现了基于列式存储(如Parquet/ORC)的压缩

文档评论(0)

1亿VIP精品文档

相关文档