- 3
- 0
- 约3.37万字
- 约 48页
- 2026-04-22 发布于江西
- 举报
大数据分析与处理技术
第1章大数据基础理论与架构演进
1.1大数据核心概念与定义辨析
大数据首先被定义为“规模大、种类多、更新快、价值密度低”的四大数据特征,这不仅是学术定义,更是业界处理数据的通用语言,用于区分传统海量数据与真正的“大数据”。在定义辨析中,“规模大”通常指TB级甚至PB级的数据量,而“价值密度低”意味着从海量数据中提取有效信息需要消耗巨大的计算资源和时间,是理解大数据成本的关键。
数据类型方面,大数据不仅包含结构化数据(如SQL表),更广泛涵盖半结构化(如JSON、XML)和非结构化数据(如图片、视频、日志),这是传统关系型数据库无法直接高效处理的。更新速度快(又称“速度大”)要求数据能够以毫秒级甚至秒级的频率产生并变化,这对实时性处理提出了极高要求,是衡量数据时效性的核心指标。价值密度低意味着在海量数据中,真正具有决策价值的信息往往只占极小部分,因此必须采用“灰度挖掘”而非“全量筛选”的策略来降低数据获取成本。
举例说明:某电商平台的用户行为日志每天产生100TB,但其中只有1%的用户了购物车,其余99%的数据若直接用于销售预测,价值几乎为零,这正是“价值密度低”的体现。
1.2传统数据处理模式与大数据范式的差异
传统数据处理模式主要依赖关系型数据库(RDBMS),其核心逻辑是“数据-模型-查询-应用”
您可能关注的文档
最近下载
- 血站检验科生物安全培训.pptx VIP
- 2026年高考英语全国一卷考试卷含答案.docx VIP
- 机械原理课程设计牛头刨床说明书位置11、7’.docx VIP
- 5、浙江省学前教育管理系统常见问题解答浙江省学前教育管理系统常见问题解答.doc VIP
- 牛头刨床(机械原理课程设计)完整版.docx VIP
- 2、浙江省学前教育管理系统(学前教育机构)操作手册.pdf VIP
- 案例研究的含义与特点.pptx VIP
- 浙江省学前教育管理系统(教育行政部门用户)操作手册.pdf VIP
- 机械原理课程设计-牛头刨床2点和八点说明书.pdf VIP
- 启动器说明书-QJZ16-120、80、60、30(N)(A).pdf VIP
原创力文档

文档评论(0)