大数据挖掘与分析手册_1.docxVIP

  • 4
  • 0
  • 约3.05万字
  • 约 45页
  • 2026-06-11 发布于江西
  • 举报

大数据挖掘与分析手册

第1章大数据基础概念与架构演进

1.1数据定义与数据生命周期

数据是指在现实世界中的客观存在,它是企业生产经营活动中的各种记录、信息和事实的载体,包括结构化数据(如数据库中的表)、非结构化数据(如文本、图片、视频)以及半结构化数据(如XML、JSON),其本质是描述客观事物的符号表示,具有客观性、真理性、时效性和共享性。数据生命周期涵盖了数据从产生、采集、存储、处理、分发到归档及销毁的全过程,这一过程通常包括数据创建(DataCreation)、数据捕获(DataCapture)、数据存储(DataStorage)、数据访问(DataAccess)、数据分发(DataDistribution)、数据归档(DataArchiving)和数据销毁(DataDestruction)六个关键阶段,每个阶段都有特定的数据状态和治理要求。

在数据生命周期管理中,数据在创建阶段需要明确来源字段定义,例如在用户注册时自动抓取手机号、邮箱和注册时间,确保数据源头的一致性;在捕获阶段需进行清洗和脱敏处理,剔除重复或无效记录,避免数据垃圾。数据存储阶段涉及数据入库的格式选择,如将结构化数据存入关系型数据库(如MySQL)以支持事务处理,将非结构化数据存入对象存储(如HDFS或S3)以节省空间并支持大规模读写,同时需建立统一的数据元数据目录。

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档