大数据分析与处理技术指南.docxVIP

  • 1
  • 0
  • 约2.48万字
  • 约 36页
  • 2026-04-25 发布于江西
  • 举报

大数据分析与处理技术指南

第1章大数据基础架构与数据治理

1.1分布式存储与计算架构概览

我们需要理解分布式存储架构的核心是“数据不移动,计算不移动”,即数据存储在数据源中,计算在数据请求时动态分配。以HadoopHDFS为例,数据被切分为数据块(DataBlock),每个块大小固定(如128MB),由NameNode负责元数据管理,DataNode负责物理存储,客户端通过NameNode获取块地址,DataNode直接读取数据,避免了全量拷贝网络传输,极大提升了读写效率。分布式计算架构通常采用MapReduce框架,它将复杂任务分解为多个小任务并行执行。

文档评论(0)

1亿VIP精品文档

相关文档