- 3
- 0
- 约3.06万字
- 约 43页
- 2026-06-21 发布于江西
- 举报
大数据分析与应用开发手册(执行版)
第1章大数据基础架构与治理
1.1大数据核心概念与技术栈概览
我们需要明确“大数据”区别于传统数据的三个核心特征:数据规模的海量性(TB/PB级)、数据的多样性(结构与非结构并存)以及处理速度的高要求(实时性)。在技术栈方面,核心组件包括基于Hadoop生态的分布式文件系统(HDFS)、基于MapReduce的计算引擎(Spark)、基于Kafka的实时流式数据交换平台,以及基于Elasticsearch的搜索引擎。
在数据湖(Hive)与数据仓库(HDFS+Hive)架构中,数据湖采用分层存储模式,将原始数据(RawData)存储在对象存储中,经过清洗后存入列式存储格式(Parquet/ORC);数据仓库则采用OLTP与OLAP混合架构,通过SQL查询引擎加速分析。安全合规方面,必须部署基于国密算法(SM2/SM3/SM4)的加密网关,对传输链路进行TLS1.3加密,并对敏感字段实施分级分类管理,确保符合等保三级标准。数据质量评估需引入CDC(ChangeDataCapture)技术实时捕获表结构变更与数据变动,结合Flink进行实时校验,确保数据入库前的一致性。
分布式存储系统(如Ceph)部署时需配置智能副本策略,根据数据热度自动调整副本数,并结合纠删码(Erasure
原创力文档

文档评论(0)