数据分析与挖掘技术手册.docxVIP

  • 2
  • 0
  • 约3.28万字
  • 约 47页
  • 2026-04-23 发布于江西
  • 举报

数据分析与挖掘技术手册

第1章数据基础与预处理

1.1数据定义与类型概述

数据定义为计算机系统中用于描述现实世界现象或规律的符号集合,它是所有信息处理活动(如分析、预测、决策)的基石。在数据分析语境下,数据通常表现为数值型(如销售额、温度)或分类型(如性别、地区)的离散或连续变量,其核心特征是“事实”与“信息”的转化。数据类型的划分直接决定了后续处理算法的适用性与精度。例如,数值型数据支持算术运算(加、乘、平均),而分类型数据(如“是/否”)则需通过逻辑判断(True/False)或编码映射(One-HotEncoding)进行转换,不能直接参与数学统计。

数据在存储、传输和计算过程中会发生形态变化,包括格式不统一(如CSV与Excel混合)、编码错误(如中文乱码导致字符丢失)以及层级结构缺失(如缺少主键关联),这些都会导致数据“脏”,必须通过预处理将其还原为高质量的分析数据集。数据类型识别是数据清洗的第一步,需人工或自动根据业务场景判断字段属性。例如,若某列包含“男/女”、“高/中/低”等选项,应标记为分类型;若包含3000元”、120元”等数字,则标记为数值型,以此指导后续编码策略的选择。理解数据类型还涉及处理边界情况,如数值型数据中可能存在的“空值”(NaN)或“无穷大”,分类型数据中可能存在的“未知值”(Unknown)或“缺失类别”,这些特

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档