WCBDA_M4S2_数据清洗和预处理.pdfVIP

  • 6
  • 0
  • 约8.21千字
  • 约 10页
  • 2020-11-23 发布于广东
  • 举报
第七课 数据清洗和预处理 学习目标  能够为数据处理做清洗和准备。 能力目标  能够理解为什么需要数据预处理 ;  能够识别数据清洗的必要性 ;  能够理解怎么处理缺失的数据 ;  能够识别错误分类、理解识别离群点的图模型 ;  能够执行数据的归一化转换。 数据分析师会用到来自于各种来源的数据。在开始数据分析过程之前 ,重点在于评估或评 价数据的质量并了解其特征。您需要确保数据的质量以及具有分析所需的所有属性。 在本次课程中 ,我们将了解如何评估数据的质量、清理原始数据、处理确实的数据以及对 某些变量执行转换。 为什么需要数据预处理 数据库中的大量原始数据是未经处理的、不完整的和有噪声的。例如 ,数据库可能包含 :  已过时或冗余的字段  缺失值 (missing values )  离群值 (outliers )  不适合数据挖掘模型的数据形式  不符合策略或常识的值 为了能用于数据分析 ,数据库需要进行预处理 (preprocessing ),其形式包括数据清洗 (data cleaning )和数据转换 (data transforming )。数据分析通常涉及多年未访问 的数据 ,因此大部分数据都包含过期、不再相关或者缺失的字段值。最重要的目标是尽量 减少垃圾进垃圾出 (garbage in, garbage out, GIGO ),即尽量减少进入模型的垃圾 , 以便尽量减少模型得出的垃圾。 根据数据集的不同 ,仅数据预处理就可以占用整个数据分析过程的时间和精力的 10 - 60%。 数据清洗 为了说明数据清洗的必要性 ,让我们看一下表 1 的示例。即使是一个很小的数据集 ,也会 隐藏着某些错误。逐个属性看过去 ,就会发现这些问题。 Marital Transaction Customer ID Zip Gender Income Age Status Amount 1001 10048 M 75,000 C M 5000 1002 J2S7K7 F −40,000 40 W 4000 1003 90210 10,000,000 45 S 7000 1004 6269 M 50,000 0 S 1000 1005 55101 F 99,999 30 D 3000 表 1 小小的数据集中有哪些问题 字段 Customer ID似乎很不错 ,Zip 呢 ?  假设我们预期所有客户应该有正常的美国邮编。客户 1002 的邮编 J2S7K7 看上去有 点奇怪。如果不小心 ,可能会将这种不正常的值当做错误而丢弃。直到某一天发现 , 并不是所有国家都使用相同的邮编格式。实际上 ,这是加拿大的魁北克的圣赫敏坎 特的邮编 ,所以可能是真实客户的数据。显然 ,一个法裔加拿大的客户买了东西 , 并将他们家的邮编放在了必填字段中。在自由贸易时代 ,我们应该预期到不同的国 家有不同的邮编格式。  客户 1004 的邮编怎么样 ?没有任何国家有四位数的邮政编码 ,例如这里的 6269 , 所以这一定是个错误 ?可能并不是。新英格兰州的邮政编码以数字 0 开始。除非邮 编字段被定义为字符 (文本 )而不是数值的 ,否则软件很可能会截断前导零。显然 这里的邮编可能是 06269 ,是康乃迪克州的斯托斯的康乃迪克大学。  下一个字段性别 ,客户 1003 的值缺失。稍后我们将了解处理缺失值的方法。  字段收入有三个潜在的离群值。首先 ,客户 1003 每

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档