大数据应用与发展趋势手册_1.docxVIP

  • 0
  • 0
  • 约2.31万字
  • 约 35页
  • 2026-06-09 发布于江西
  • 举报

大数据应用与发展趋势手册

第1章

大数据基础架构与存储技术

1.1分布式计算框架演进

在分布式计算领域,MapReduce作为最初的革命性框架,通过将计算任务分解为Map和Reduce两个阶段,实现了数据的并行处理,但它存在任务依赖性强、难以横向扩展以及无法直接面向应用层的问题,难以满足现代实时分析需求。为了解决上述痛点,Spark应运而生,它引入了内存计算技术,将数据在内存中进行计算而非依赖磁盘IO,从而极大提升了处理速度并降低了延迟,但其内存容量有限且运行环境相对封闭,不适合存储亿级以上的历史数据。

随后,HadoopHDFS作为底层存储基石,确立了“数据驱动计算”的模式,通过NameNode管理元数据和DataNode管理数据块,实现了海量数据的分布式存储,但其计算引擎是独立的,无法与存储深度集成。随着云原生技术的发展,Flink成为了实时流处理的首选,它原生支持流式计算,具备低延迟和高吞吐能力,能够将数据流实时转换为分析结果,但它无法像Hadoop那样持久化存储离线历史数据。为了构建全栈式的“湖仓一体”架构,ApacheIceberg和ApacheHudi等表格格式被引入,它们不仅支持列式存储,还具备在线追加写入(OLAP)、版本控制以及高性能查询能力,能够解决传统HDFS无法高效支持新数据写入的问题。

文档评论(0)

1亿VIP精品文档

相关文档