大数据处理与分析手册.docxVIP

  • 2
  • 0
  • 约2.67万字
  • 约 40页
  • 2026-04-27 发布于江西
  • 举报

大数据处理与分析手册

大数据处理与分析手册

第一章数据基础与预处理

1.1数据定义与分类

数据是信息的载体,是大数据处理与分析的基石。在构建数据仓库时,我们需要首先明确数据的定义,即数据是记录现实世界信息、经过结构化或半结构化处理后的原始形式。例如,某电商平台的用户行为日志中,每一行记录代表一次具体的“浏览”动作,包含用户ID、时间戳、商品ID和页面跳转路径,这些字段共同构成了对“用户行为”这一概念的数据定义。数据分类是建立数据模型的第一步,通常基于其来源、结构和用途进行划分。常见的分类包括结构化数据(如数据库表格)、非结构化数据(如文本、图片、视频)以及半结构化数据(如JSON、XML)。以医疗数据为例,电子病历属于结构化数据,而通过扫描的医学影像报告属于非结构化数据,两者在存储方式和分析策略上有着本质的区别。

在数据分类中,维度(Dimension)和度量(Measure)是两个核心概念。维度用于描述数据的属性,如“用户年龄”、“城市”或“商品类别”,它们通常作为自变量;而度量用于描述数据的数值结果,如“销售额”、“次数”或“访问时长”,它们通常作为因变量。例如,在分析“用户活跃度”时,“日活跃用户数”是一个度量,“用户访问次数”则是另一个度量,前者是后者的结果。数据分类还涉及数据生命周期中的状态管理。数据可能处于“采集阶段”、“清洗阶段”、“存储

文档评论(0)

1亿VIP精品文档

相关文档