互联网大数据应用与挖掘手册.docxVIP

  • 3
  • 0
  • 约3.28万字
  • 约 49页
  • 2026-06-15 发布于江西
  • 举报

互联网大数据应用与挖掘手册

第1章大数据基础架构与数据治理

1.1大数据核心概念与演进历程

大数据的核心定义由NIST在2011年正式确立,即具备4V特征的数据集合:Volume(海量性)、Velocity(高速性)、Variety(多样性)、Value(价值性)。这一概念标志着传统数据库从“存储为主”向“计算与存储并重”的范式转变。在演进历程中,从2006年的“大数据时代”概念提出,到2011年NIST的官方定义,再到2015年Google提出的5V(增加Value后为5V),反映了业界对数据资产价值的不断重新定义。

随着技术栈的发展,从早期的MapReduce框架,演进至Spark、Flink等流式计算引擎,再到现在的云原生大数据平台(如HadoopEcosystem、Kafka、Presto),构建了一套完整的处理流水线。数据产生后,需经过采集(Collection)、存储(Storage)、处理(Processing)和服务(Service)四个阶段。采集阶段依赖日志聚合(LogAggregation)技术,将分散的源端数据统一汇聚。存储架构上,从最初的HDFS文件系统,发展到基于对象存储(如S3)的混合存储模式,实现了冷热数据分层存储,既节省空间又提升查询效率。

处理架构经历了从“批处理”到“批

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档