大数据技术与应用手册.docxVIP

下载本文档

0
0
约2.73万字
约 39页
2026-06-02 发布于江西
举报

大数据技术与应用手册.docx

大数据技术与应用手册

第1章大数据技术基础架构

1.1分布式存储与计算原理

分布式存储的核心在于将数据分散存储在多台物理机器上，通过分布式文件系统（如HDFS）实现数据的持久化与高扩展性。在数据湖场景中，数据以原始格式（如Parquet、ORC）存储在非结构化存储区域，而计算任务通过MapReduce或Spark框架在节点间进行。当数据量达到PB级别时，单机存储容量成为瓶颈。分布式存储利用副本机制（Replication）确保数据冗余，通常数据副本数配置为3份以防单节点故障导致数据丢失，同时通过数据分片（Sharding）将数据均匀分布到数百甚至数千个数据节点上。

分布式计算依赖于“依赖关系图”来调度任务。在Spark中，任务被划分为RDD（弹性分布式数据集）或DataFrame，系统会根据依赖关系自动将计算任务分配给空闲的Worker节点，无需人工干预即可实现负载均衡。数据倾斜（DataSkew）是导致分布式计算性能下降的主要原因。例如，如果某条记录在存储层均匀分布，但在计算层某个分区数据量远大于其他分区，会导致部分节点承担过重负载而超时。解决数据倾斜的策略包括：在写入阶段对数据进行随机打散（ShuffleShuffle），或者在读取阶段将数据倾斜的分区单独处理。经验表明，将数据倾斜控制在20%以内通常能保证集群整体吞

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

大数据技术与应用手册.docxVIP