- 3
- 0
- 约3.24万字
- 约 49页
- 2026-04-18 发布于江西
- 举报
大数据应用与开发手册
第1章大数据基础架构与生态
1.1核心概念与术语解析
大数据(BigData)被定义为具有“大量(Volume)、高速(Velocity)、多样(Variety)和真实(Veracity)”四个核心特征的数据集合,其规模通常远超传统数据库的处理能力,且对实时性要求极高。在架构层面,我们需区分“数据源(DataSource)”作为数据的原始入口,如传感器日志或交易系统;“数据仓库(DataWarehouse)”作为经过清洗、整合后的历史分析对象;“数据湖(DataLake)”则是存储原始、未加工数据的低成本存储池,是未来架构的主流形态。
术语中,“计算引擎”指代处理数据的程序组件,包括基于MapReduce的批处理引擎、基于Spark的流处理引擎以及基于Flink的实时计算引擎,它们共同构成了计算能力的基石。数据治理是指通过标准、流程和角色来管理数据的生命周期,确保数据的质量、一致性和安全性,其核心目标是消除“数据孤岛”,让数据资产真正转化为可信赖的生产力。元数据(Metadata)是描述数据的“说明书”,包括数据的内容、结构、来源、质量指标及访问权限等,它是数据资产可视化和智能检索的关键导航图。
安全合规则涵盖了物理安全、网络安全、数据安全及隐私保护,确保在数据传输、存储和使用全过程中符合法律法规(如GDPR、PIPL
您可能关注的文档
最近下载
- 市政工程道路水泥混凝土面层施工技术交底.docx VIP
- 临床药物治疗学(1).pdf VIP
- 现金流量表自动生成模板.xls VIP
- 2025年智慧树知到《军事理论》考试题库及答案解析.docx VIP
- 《软件设计与体系结构》期末考试试卷及答案.doc VIP
- 新22D3 电力线路敷设安装建筑工程图集.pdf VIP
- 人工智能行业市场前景及投资研究报告:CPU,Agentic AI重塑通用计算价值.pdf VIP
- DBJT15-226-2021 民用建筑电线电缆防火技术规程.pdf VIP
- 河南科技大学《软件设计与体系结构》2021-2022学年期末试卷.doc VIP
- 《中华人民共和国农村集体经济组织法》专业解读课件.pptx VIP
原创力文档

文档评论(0)