- 3
- 0
- 约2.01万字
- 约 29页
- 2026-06-18 发布于江西
- 举报
大数据应用与处理指南
第1章
大数据基础概念与架构演进
1.1什么是大数据:从“海量”到“价值”的跨越
我们需要明确大数据的核心定义,即由哈维·梅尔文·卡普兰(HarveyM.Kaplan)提出的5V特征:Volume(海量)、Velocity(高速)、Variety(多样)、Value(低价值密度)和Veracity(真实性)。这意味着数据量通常达到PB甚至EB级别,且产生速度极快,同时包含结构化、半结构化和非结构化数据。为了区分大数据与传统数据库,必须理解其“价值密度”极低但“获取成本”极高的特点。例如,我们每天产生数亿条日志记录,其中只有千分之几包含用户行为或关键决策信息,但处理这些数据的成本远低于直接丢弃它们。
接着,大数据处理环境必须支持“实时性”而非“批处理”。以电商大促为例,每秒产生的订单数据需要在毫秒级内被系统捕获并分析,否则库存调度就会出错,这就是对大数据时效性的极致要求。数据形态的多样性是架构设计的基石。除了传统的SQL表,大数据系统还需同时处理CSV文件、JSON配置、Parquet表格甚至视频流,系统必须具备统一的抽象层来屏蔽底层格式差异。数据的“真实性”验证是应用的前提。在金融风控场景中,如果输入数据存在篡改,整个模型将失效。因此,大数据系统必须集成数字签名、区块链存证等机制来确保数据源头可信。
架构演进的目标是
原创力文档

文档评论(0)