- 1
- 0
- 约2.95万字
- 约 43页
- 2026-06-13 发布于江西
- 举报
大数据技术与应用实践手册(执行版)
第1章大数据技术基础架构与核心原理
1.1分布式存储体系与数据湖概念
分布式存储体系是指将海量数据分散存储在多台服务器节点上,通过分布式文件系统(如HDFS)或分布式对象存储(如MinIO、S3)实现的数据存储架构。其核心原理是“一次写入,多次读取”,即数据只需写入一次,后续可被多个用户或应用程序多次读取,从而极大降低存储成本并提高系统可用性。数据湖概念与传统数据仓库不同,它采用非结构化或半结构化数据(如日志、视频流、文本)作为主要存储对象,不预先进行严格的模型划分。数据湖允许存储原始数据,支持“存储即处理”的理念,为后续的大数据分析提供原始素材库,是构建灵活数据生态的基础。
在分布式存储中,数据被划分为块(Block)或行(Row),块通常由固定大小的数据段组成,存储时通过哈希算法将数据块分散到集群的多个节点上,确保任意一个节点宕机都不会导致数据丢失,实现了数据的容灾备份。数据湖支持多种格式存储,包括Parquet、ORC、Avro等列式存储格式,这些格式通过压缩算法(如Snappy、ZSTD)减少存储空间占用,同时通过列式结构优化查询性能,使得在海量数据场景下能快速定位所需数据。数据湖的架构通常包含数据接入层、存储层、计算层和应用层,数据湖作为底层存储层,能够统一纳管来自不同技术栈的数据源,为上层应用提供标准化的数
您可能关注的文档
最近下载
- 2026年部编版三年级下册语文期末质量检测试卷及答案答题卡.pdf VIP
- 陕西省建设工程工程量清单计价规则(2009).pdf VIP
- 新目标大学英语(第二版)视听说教程 2 参考答案.pdf VIP
- 《建筑地基基础设计规范》GB50007-2011.doc VIP
- 2026年春季小学语文学科教研组工作总结——深耕新教材,重构新课堂,赋能新成长.doc
- 机电工程安装细部节点做法(2025年).docx
- 东北大学综合评价.pptx VIP
- 东北大学综合评价招生综合素质测试题总结.doc VIP
- 东北大学综合评价招生综合素质测试题总结.doc VIP
- 2025年国开 电大计算机应用基础 终结性考试试题及答案 .pdf VIP
原创力文档

文档评论(0)