- 0
- 0
- 约2.86万字
- 约 42页
- 2026-06-04 发布于江西
- 举报
大数据应用与分析指南
第1章大数据基础架构与数据治理
1.1大数据技术栈概述
定义与核心组件
大数据技术栈是指支撑海量数据从采集、存储、处理到分析的全套软硬件工具组合。其核心组件包括:Hadoop生态体系(HDFS、MapReduce)、Spark计算引擎、Hive离线分析工具、Flink实时流处理框架、Kafka消息队列、HBase宽表存储以及Elasticsearch搜索引擎。这些组件共同构成了一个高吞吐、低延迟的数据处理管道。
②分布式存储架构
在技术栈中,HDFS(HadoopDistributedFileSystem)是底层存储基石,它采用“名字空间”和“块”机制,将数据切分为64MB的块存储于分布式集群中,确保数据在节点间的高可靠性复制。
具体操作范例:当用户一份50GB的日志文件时,系统会自动将其切分为1000个64MB的块,并将每个块分别写入4个不同的数据节点(Node0,Node1,Node2,Node3),通过副本机制保证数据不丢失,确保任意一个节点故障数据仍可恢复。
流批一体处理架构
Spark和Flink代表了计算引擎的两种先进形态。Spark侧重于批处理任务的快速执行,利用内存进行算子级优化;Flink则专注于低延迟的实时流处理,支持事件时间(EVT)和窗口(Window)概
原创力文档

文档评论(0)