- 1
- 0
- 约3.12万字
- 约 46页
- 2026-06-08 发布于江西
- 举报
大数据分析与应用手册
第1章大数据基础架构与数据治理
1.1大数据核心概念与技术演进
大数据的核心定义源于4V特征,即体量(Volume)、速度(Velocity)、多样性(Variety)和价值(Value),其中体量通常指TB级甚至PB级数据,速度指毫秒级处理需求,多样性涵盖结构化、半结构化及非结构化数据(如日志、图片、语音),价值则强调从数据中挖掘出可量化的业务洞察。在技术演进上,传统关系型数据库(如Oracle、SQLServer)基于行模式设计,难以应对海量非结构化数据;而NoSQL数据库(如MongoDB、Cassandra)采用键值或文档模式,提供了更高的扩展性和灵活性,能够适应动态变化的数据场景。
大数据计算框架经历了从MapReduce到Spark的迭代,Spark以其内存计算特性解决了大规模数据处理中的延迟瓶颈,支持算子级并行执行,大幅提升了处理效率。流处理框架(如Flink)侧重于实时数据流处理,具备低延迟和高吞吐能力,能够捕捉毫秒级数据变化,适用于实时风控、实时推荐等场景。湖仓一体架构(如Snowflake、MaxCompute)将数据湖(存储原始数据)与数据仓库(存储分析数据)融合,打破了传统ETL流程,支持数据在写入和读取时的统一存储与计算。
数据治理的演进目标是建立统一的数据标准,消除数据孤岛,确
您可能关注的文档
最近下载
- 苏TZG 01-2026 江苏省预应力混凝土空心方桩图则.docx VIP
- 热工基础期末考试题库(含答案详解).pdf VIP
- 培智四年级学生劳动技能培养教案.docx VIP
- 铁皮房搭建施工方案(3篇).docx VIP
- (官方部分试题答案+分析)2026年普通高等学校招生全国统一考试(全国一卷)语文试题.docx VIP
- 2024年九江市柴桑区投资集团有限公司招聘笔试参考题库附带答案详解.pdf
- JC474-2008 砂浆、混凝土防水剂.docx VIP
- 大学生职业生涯规划职业生涯规划.pdf VIP
- 国网湖南省电力有限公司技术技能培训中心(长沙电力职业技术学院)_15.pdf VIP
- 2026年青岛版(63制)三年级科学下册 21.制作简易滴灌器(课件).pptx VIP
原创力文档

文档评论(0)