- 5
- 0
- 约3.46万字
- 约 51页
- 2026-06-20 发布于江西
- 举报
大数据分析与挖掘手册
第1章大数据环境架构与基础概念
1.1大数据定义与核心特征
大数据(BigData)并非单纯指数据量巨大,而是指具有“5V特征的数据集合,即体积(Volume)、速度(Velocity)、多样性(Variety)、价值(Value)和真实性(Veracity)。例如,某电商平台在双十一期间每秒产生5000万条日志,这就是典型的Volume特征。核心特征之一是速度,指数据产生的速率极高,要求系统具备毫秒级的处理能力。以金融交易系统为例,当用户发起一笔实时转账时,系统必须在500毫秒内完成数据校验与回写,否则可能导致资金损失。
多样性表明数据形态千差万别,包括结构化数据(如SQL表)、半结构化数据(如JSON配置文件)和非结构化数据(如图片、视频、文本日志)。例如,医院HIS系统同时存储着电子病历(结构化)、检验报告(半结构化)和医生手写病历(非结构化)。价值在于数据中蕴含的隐性规律,通过挖掘可转化为商业或管理决策的资产。例如,通过分析用户浏览历史与购买行为的关联,精准预测用户的下一笔消费意向,从而优化库存策略。真实性强调数据必须准确、可靠,任何偏差都会导致分析结论失效。在医疗数据分析中,如果诊断结果数据存在录入错误,直接导致的治疗方案选择将造成严重后果,因此数据准确性是生命线。
大数据环境架构通常采用分层设计,从数据
您可能关注的文档
最近下载
- (正式版)B∕T 3836.162024 爆炸性环境 第16部分:电气装置检查与维护规范.docx VIP
- (正式版)D-L∕T 1777-2017 智能变电站二次设备屏柜光纤回路技术规范.docx VIP
- 新概念英语第二册1-9课测试题.docx VIP
- 12J609 防火门窗图集.docx VIP
- 光伏电站尽调报告.pdf VIP
- 年产2000吨水性聚氨酯材料聚合工艺初步设计.docx
- 工程消防各系统施工预案.docx VIP
- 沪教版三年级下册数学7.3《解决问题》课件(共21张PPT).pptx VIP
- (正式版)D-L∕T 1776-2017 电力系统用交流滤波电容器技术导则.docx VIP
- GB 50058-2014 爆炸危险环境电力装置设计规范(附条文说明).pdf VIP
原创力文档

文档评论(0)