大数据应用与发展趋势手册_1.docxVIP

下载本文档

0
0
约2.31万字
约 35页
2026-06-09 发布于江西
举报

大数据应用与发展趋势手册_1.docx

大数据应用与发展趋势手册

第1章

大数据基础架构与存储技术

1.1分布式计算框架演进

在分布式计算领域，MapReduce作为最初的革命性框架，通过将计算任务分解为Map和Reduce两个阶段，实现了数据的并行处理，但它存在任务依赖性强、难以横向扩展以及无法直接面向应用层的问题，难以满足现代实时分析需求。为了解决上述痛点，Spark应运而生，它引入了内存计算技术，将数据在内存中进行计算而非依赖磁盘IO，从而极大提升了处理速度并降低了延迟，但其内存容量有限且运行环境相对封闭，不适合存储亿级以上的历史数据。

随后，HadoopHDFS作为底层存储基石，确立了“数据驱动计算”的模式，通过NameNode管理元数据和DataNode管理数据块，实现了海量数据的分布式存储，但其计算引擎是独立的，无法与存储深度集成。随着云原生技术的发展，Flink成为了实时流处理的首选，它原生支持流式计算，具备低延迟和高吞吐能力，能够将数据流实时转换为分析结果，但它无法像Hadoop那样持久化存储离线历史数据。为了构建全栈式的“湖仓一体”架构，ApacheIceberg和ApacheHudi等表格格式被引入，它们不仅支持列式存储，还具备在线追加写入（OLAP）、版本控制以及高性能查询能力，能够解决传统HDFS无法高效支持新数据写入的问题。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

大数据应用与发展趋势手册_1.docxVIP