- 0
- 0
- 约2.73万字
- 约 39页
- 2026-06-02 发布于江西
- 举报
大数据技术与应用手册
第1章大数据技术基础架构
1.1分布式存储与计算原理
分布式存储的核心在于将数据分散存储在多台物理机器上,通过分布式文件系统(如HDFS)实现数据的持久化与高扩展性。在数据湖场景中,数据以原始格式(如Parquet、ORC)存储在非结构化存储区域,而计算任务通过MapReduce或Spark框架在节点间进行。当数据量达到PB级别时,单机存储容量成为瓶颈。分布式存储利用副本机制(Replication)确保数据冗余,通常数据副本数配置为3份以防单节点故障导致数据丢失,同时通过数据分片(Sharding)将数据均匀分布到数百甚至数千个数据节点上。
分布式计算依赖于“依赖关系图”来调度任务。在Spark中,任务被划分为RDD(弹性分布式数据集)或DataFrame,系统会根据依赖关系自动将计算任务分配给空闲的Worker节点,无需人工干预即可实现负载均衡。数据倾斜(DataSkew)是导致分布式计算性能下降的主要原因。例如,如果某条记录在存储层均匀分布,但在计算层某个分区数据量远大于其他分区,会导致部分节点承担过重负载而超时。解决数据倾斜的策略包括:在写入阶段对数据进行随机打散(ShuffleShuffle),或者在读取阶段将数据倾斜的分区单独处理。经验表明,将数据倾斜控制在20%以内通常能保证集群整体吞
您可能关注的文档
最近下载
- (正式版)DB43∕T 845-2013 《靖州干茯苓》.pdf VIP
- 降低腹腔镜术后腹胀发生率(共57页).pptx
- 2026年新疆社区工作者招聘考试历年参考题库含答案详解.docx
- 工程项目的固废处置方案(3篇).docx
- 05X101-2地下通信线缆敷设(标准图集).pdf VIP
- 急性心梗诊疗(2025最新指南)解读PPT课件.pptx VIP
- 急性心梗诊疗(2025+最新指南)解读PPT课件.pptx VIP
- 阿尔茨海默病(老年痴呆)患者的护理查房.pptx VIP
- 2023--2024学年人教版数学七年级下册期末模拟试卷(含答案).pdf VIP
- 建筑工程制图与识图题库练习及答案.docx VIP
原创力文档

文档评论(0)