WCBDA_M4S2_数据清洗和预处理.pdfVIP

下载本文档

6
0
约8.21千字
约 10页
2020-11-23 发布于广东
举报

WCBDA_M4S2_数据清洗和预处理.pdf

第七课数据清洗和预处理学习目标  能够为数据处理做清洗和准备。能力目标  能够理解为什么需要数据预处理；  能够识别数据清洗的必要性；  能够理解怎么处理缺失的数据；  能够识别错误分类、理解识别离群点的图模型；  能够执行数据的归一化转换。数据分析师会用到来自于各种来源的数据。在开始数据分析过程之前，重点在于评估或评价数据的质量并了解其特征。您需要确保数据的质量以及具有分析所需的所有属性。在本次课程中，我们将了解如何评估数据的质量、清理原始数据、处理确实的数据以及对某些变量执行转换。为什么需要数据预处理数据库中的大量原始数据是未经处理的、不完整的和有噪声的。例如，数据库可能包含：  已过时或冗余的字段  缺失值（missing values ）  离群值（outliers ）  不适合数据挖掘模型的数据形式  不符合策略或常识的值为了能用于数据分析，数据库需要进行预处理（preprocessing ），其形式包括数据清洗（data cleaning ）和数据转换（data transforming ）。数据分析通常涉及多年未访问的数据，因此大部分数据都包含过期、不再相关或者缺失的字段值。最重要的目标是尽量减少垃圾进垃圾出（garbage in, garbage out, GIGO ），即尽量减少进入模型的垃圾，以便尽量减少模型得出的垃圾。根据数据集的不同，仅数据预处理就可以占用整个数据分析过程的时间和精力的 10 - 60％。数据清洗为了说明数据清洗的必要性，让我们看一下表 1 的示例。即使是一个很小的数据集，也会隐藏着某些错误。逐个属性看过去，就会发现这些问题。 Marital Transaction Customer ID Zip Gender Income Age Status Amount 1001 10048 M 75,000 C M 5000 1002 J2S7K7 F −40,000 40 W 4000 1003 90210 10,000,000 45 S 7000 1004 6269 M 50,000 0 S 1000 1005 55101 F 99,999 30 D 3000 表 1 小小的数据集中有哪些问题字段 Customer ID似乎很不错，Zip 呢？  假设我们预期所有客户应该有正常的美国邮编。客户 1002 的邮编 J2S7K7 看上去有点奇怪。如果不小心，可能会将这种不正常的值当做错误而丢弃。直到某一天发现，并不是所有国家都使用相同的邮编格式。实际上，这是加拿大的魁北克的圣赫敏坎特的邮编，所以可能是真实客户的数据。显然，一个法裔加拿大的客户买了东西，并将他们家的邮编放在了必填字段中。在自由贸易时代，我们应该预期到不同的国家有不同的邮编格式。  客户 1004 的邮编怎么样？没有任何国家有四位数的邮政编码，例如这里的 6269 ，所以这一定是个错误？可能并不是。新英格兰州的邮政编码以数字 0 开始。除非邮编字段被定义为字符（文本）而不是数值的，否则软件很可能会截断前导零。显然这里的邮编可能是 06269 ，是康乃迪克州的斯托斯的康乃迪克大学。  下一个字段性别，客户 1003 的值缺失。稍后我们将了解处理缺失值的方法。  字段收入有三个潜在的离群值。首先，客户 1003 每

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

WCBDA_M4S2_数据清洗和预处理.pdfVIP