- 1
- 0
- 约2.48万字
- 约 36页
- 2026-04-25 发布于江西
- 举报
大数据分析与处理技术指南
第1章大数据基础架构与数据治理
1.1分布式存储与计算架构概览
我们需要理解分布式存储架构的核心是“数据不移动,计算不移动”,即数据存储在数据源中,计算在数据请求时动态分配。以HadoopHDFS为例,数据被切分为数据块(DataBlock),每个块大小固定(如128MB),由NameNode负责元数据管理,DataNode负责物理存储,客户端通过NameNode获取块地址,DataNode直接读取数据,避免了全量拷贝网络传输,极大提升了读写效率。分布式计算架构通常采用MapReduce框架,它将复杂任务分解为多个小任务并行执行。
原创力文档

文档评论(0)