第2章数据预处理终稿.pptVIP

下载本文档

3
0
约7.24千字
约 64页
2017-03-18 发布于湖北
举报
版权申诉

第2章数据预处理终稿.ppt

1、本文档共64页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第3章数据预处理 3.1 预处理的必要性目前，数据挖掘的研究工作大都集中在算法的探讨而忽视对数据处理的研究。事实上，数据预处理对数据挖掘十分重要，一些成熟的算法对其处理的数据集合都有一定的要求：比如数据的完整性好，冗余性小，属性的相关性小等。数据预处理是数据挖掘的重要一环，而且必不可少。要使挖掘算法挖掘出有效的知识，必须为其提供干净，准确，简洁的数据。然而，实际应用系统中收集的数据通常是“脏”数据 1、杂乱性如性别： A数据库 male=1 , female=2 B数据库 male=‘男’ ，female=‘女’ C数据库 male=‘M’ , female=‘F’ 2、重复性同一客观事物在数据库中存在两个以上相同的物理描述假设某周刊有100000个订户，邮件列表中0.1%的记录是重复的，主要是一个名字有不同的写法 Jon Doe 和John Doe 因此，每周需要印刷和邮寄100份额外的刊物，假设每周的邮寄和印刷费用是两圆，公司每年将浪费10000元以上 3、不完整性由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素，数据记录可能会出现数据值的丢失或不确定，原因可能有：（1）有些属性的内容有时没有（家庭收入，参与销售事物数据中的顾客信息）（2）有些数据当时被认为是不必要的（3）由于误解或检测设备失灵导致相关数据没有记录下来（4）与其它记录内容不一致而被删除（5）忽略了历史数据或对数据的修改 4、噪声数据数据中存在着错误或异常（偏离期望值），血压和身高为0就是明显的错误，当数据缺失且用默认值来填充缺失项时，很容易发生这类错误。（1）数据采集设备有问题（2）数据录入过程中发生了人为或计算机错误（3）传输过程中发生错误 4.2 数据预处理的功能数据清理（清洗） ------可以去掉数据中的噪声，纠正不一致数据集成 -----将多个数据源合并成一致的数据存储，构成一个完整的数据集，如数据仓库或数据立方体数据变换（转换） --- 将一种格式的数据转换为另一格式的数据(如规范化) 数据归约（消减） ----可以通过聚集、删除冗余特性或聚类等方法来压缩数据 4.3 数据清理（清洗）数据清理完成: 填充空缺的值识别孤立点消除噪声纠正数据中的不一致一、遗漏数据的处理 (1)忽略该元组若一条记录中有属性值被遗漏了，则将该记录排除在数据挖掘之外；尤其当类标号缺少时通常这样做（假定挖掘任务涉及分类或描述)。当每个属性缺少值的百分比变化很大时，它的性能非常差。 (2)人工填写空缺值当数据集很大、缺少很多值时，该方法可能行不通。 (3)使用一个全局常量填充空缺值 (4)使用属性的平均值填充空缺值将空缺的属性值用同一个常数(如“Unknown”或)替换。如果空缺值都用“Unknown”替换，当空缺值较多时。挖掘程序可能误以为它们形成了一个有趣的概念，因为它们都具有相同的值——“Unknown”。因此，尽管该方法简单，我们并不推荐它。例如，假定AllElectronics顾客的平均收入为$28 000，则使用该值替换income中的空缺值 (5)利用同类别均值填补遗漏数据例如，如果将顾客按credit risk分类，则用具有相同信用度的顾客的平均收入替换income中的缺值 (6)使用最可能的值填充空缺值二、噪声数据噪声(noise)是一个测量变量中的随机错误或偏差。给定一个数值属性，例如price，我们怎样才能平滑数据，去掉噪声? (1)分箱(binning) 分箱方法通过考察“邻居”(即周围的值)来平滑存储数据的值。存储的值被分布到一些“桶”或箱中。由于分箱方法参考相邻的值，因此它进行局部平滑。下图展示示了一些分箱技术。 (2)聚类(clustering) 通过聚类分析可以检测孤立点，聚类将类似的值组织成群或“聚类”。直观地看，落在聚类集合之外的值被视为孤立点 (3)计算机和人工检查结合