大数据分析与挖掘手册.docxVIP

  • 3
  • 0
  • 约2.23万字
  • 约 32页
  • 2026-06-16 发布于江西
  • 举报

大数据分析与挖掘手册

第1章大数据基础概念与架构演进

1.1大数据定义与核心特征

大数据通常被定义为“规模大、类型多、增长快、价值密度低但潜在价值极高”的数据集合,其核心特征常被概括为5V:Volume(海量性)、Velocity(高速性)、Variety(多样性)、Veracity(真实性)和Value(价值性)。例如,某电商平台在2023年单日产生的交易记录可能达到10亿条,每条记录仅包含几行数据,但其中包含用户行为轨迹、商品库存状态、支付信息等多维信息。海量性是指数据量通常远超传统数据库的处理能力,以PB(拍)甚至EB(埃字节)为单位,且往往呈指数级增长。例如,一个大型物联网(IoT)城市管理系统中,传感器每秒产生的数据量可达数十万条,若不加处理将导致系统崩溃。

高速性强调数据产生、传输和处理的实时性要求,数据往往在后几秒钟内就需要被分析。例如,金融风控系统必须在毫秒级时间内完成对异常交易数据的比对,才能决定是否拦截交易。多样性指数据格式极其丰富,包括结构化数据(如SQL表格)、半结构化数据(如JSON、XML配置文件)以及非结构化数据(如图片、视频、日志文本、语音)。例如,医院HIS系统中,既有医生挂号的Excel表格,又有电子病历的PDF文档,还有患者的体检报告图像。真实性(Veracity)关注数据的质量与可信度,即数据

文档评论(0)

1亿VIP精品文档

相关文档