- 2
- 0
- 约1.89万字
- 约 28页
- 2026-05-30 发布于江西
- 举报
2025年大数据技术原理与应用手册
第1章大数据技术演进与架构基础
1.1大数据定义与核心特征
大数据首先被定义为“规模巨大、种类丰富、处理速度快、价值密度低”的数据集合,它打破了传统IT系统对数据量、维度和处理速度(3V)的单一限制,引入了“价值密度低”这一新维度,意味着海量数据中包含着高价值的信息。在2025年的技术语境下,大数据的“规模”已不再仅仅是TB级,而是达到了PB级甚至EB级,例如某大型金融集团年度产生的结构化与非结构化数据总量已突破500PB,远超传统数据库的承载极限。
“种类丰富”体现在数据形态的多元化,从传统的关系型数据库(如MySQL)中,扩展到非结构化数据,包括视频流、音频文件、物联网传感器原始数据、社交媒体文本以及日志文件等。“价值密度低”是大数据区别于传统数据的关键特征,这意味着在海量数据中,真正包含关键业务决策信息的“黄金数据”往往只占总量的百分之零点几甚至更低,因此必须通过智能算法进行挖掘而非简单存储。处理速度快(Velocity)要求系统具备毫秒级的响应能力,例如在实时风控场景中,当用户“购买”按钮时,系统必须在100毫秒内完成从数据捕获到风险评分的完整链路。
数据价值密度低要求我们在处理时不能仅关注数据的存储量,更要关注数据的“可用性”和“可挖掘性”,需要通过数据清洗、脱敏和特征工程来释放其潜在价
原创力文档

文档评论(0)