大数据分析与挖掘手册_1.docxVIP

  • 5
  • 0
  • 约3.46万字
  • 约 51页
  • 2026-06-20 发布于江西
  • 举报

大数据分析与挖掘手册

第1章大数据环境架构与基础概念

1.1大数据定义与核心特征

大数据(BigData)并非单纯指数据量巨大,而是指具有“5V特征的数据集合,即体积(Volume)、速度(Velocity)、多样性(Variety)、价值(Value)和真实性(Veracity)。例如,某电商平台在双十一期间每秒产生5000万条日志,这就是典型的Volume特征。核心特征之一是速度,指数据产生的速率极高,要求系统具备毫秒级的处理能力。以金融交易系统为例,当用户发起一笔实时转账时,系统必须在500毫秒内完成数据校验与回写,否则可能导致资金损失。

多样性表明数据形态千差万别,包括结构化数据(如SQL表)、半结构化数据(如JSON配置文件)和非结构化数据(如图片、视频、文本日志)。例如,医院HIS系统同时存储着电子病历(结构化)、检验报告(半结构化)和医生手写病历(非结构化)。价值在于数据中蕴含的隐性规律,通过挖掘可转化为商业或管理决策的资产。例如,通过分析用户浏览历史与购买行为的关联,精准预测用户的下一笔消费意向,从而优化库存策略。真实性强调数据必须准确、可靠,任何偏差都会导致分析结论失效。在医疗数据分析中,如果诊断结果数据存在录入错误,直接导致的治疗方案选择将造成严重后果,因此数据准确性是生命线。

大数据环境架构通常采用分层设计,从数据

文档评论(0)

1亿VIP精品文档

相关文档