第四章 数据预处理.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章 数据预处理

《 数据仓库与数据挖掘》;*;数据挖掘: 数据库中的知识挖掘(KDD); 第 4 章;*;1)杂乱性:如命名规则的不同 如性别: A数据库 male=1 , female=2 B数据库 male=‘男’ ,female=‘女’ C数据库 male=‘M’ , female=‘F’;2)重复性:同一客观事物在数据库中存在两个以上相同的物理描述。 假设某周刊有100000个订户,邮件列表中0.1%的记录是重复的,主要是因为同一个客户的名字可能有不同的写法,如:Jon Doe和John Doe。 因此,每周需要印刷和邮寄100份额外的刊物,假设每份刊物每周的邮寄和印刷费用是两美元,公司每年将至少浪费1万美元以上。 ;3)不完整性:由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定。 原因可能有: (1)有些属性的内容有时没有 (家庭收入,参与销售事务数据中的顾客信息) (2)有些数据当时被认为是不必要的 (3)由于误解或检测设备失灵导致相关数据没有记录下来 (4)与其它记录内容不一致而被删除 (5)忽略了历史数据或对数据的修改;4)噪声数据:数据中存在着错误或异常(偏离期望值) 如:血压和身高为0就是明显的错误 噪声数据的产生原因: 数据采集设备有问题; 在数据录入过程发生人为或计算机错误; 数据传输过程中出现错误; 由于命名规则或数据代码不同而引起的不一致。;数据清理(清洗) ----去掉数据中的噪声,纠正不一致 数据集成 -----将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库。 数据变换(转换) -----将一种格式的数据转换为另一格式的数据(如规范化) 数据归约(消减) ----通过聚集、删除冗余属性或聚类等方法来压缩数据。 ;*;注意: 上述的各种数据预处理方法,并不是相互独立的,而是相互关联的,如消除数据冗余既可以看成是一种形式的数据清洗,也可以看成是一种数据归约(消减)。 ;4.1 数据清洗 4.2 数据集成和变换 4.3 数据归约 4.4 数据离散化和概念分层*;*;4.1 数据清洗;1. 空缺值的处理?;*;如何处理空缺值;如何处理空缺值;如何处理空缺值;如何处理空缺值;2. 噪声数据的处理?;噪声数据;如何处理噪声数据 ;如何处理噪声数据 ;如何处理噪声数据 ;示例: 已知一组价格数据:15,21,24,21,25,4,8,34,28 现用等深(深度为3)分箱方法对其进行平滑,以对数据中的噪声进行处理。; 在该例中,price数据首先被划分并存人等深的箱中(深度3)。 对于按箱平均值平滑,箱中每一个值被箱中的平均值替换。例如,箱1中的值4,8和15的平均值是9;这样,该箱中的每一个值被替换为9。 对于按箱边界平滑,箱中的最大和最小值被视为箱边界。箱中的每一个值被最近的边界值替换。 类似地,可以使用按箱中值平滑。此时,箱中的每一个值被箱中的中值替换。;如何处理噪声数据 ;示例: 已知一组价格数据:15,21,24,21,25,4,8,34,28 现用等宽(宽度为10)分箱方法对其进行平滑,以对数据中的噪声进行处理。;练习: 已知客户收入属性income排序后的值(人民币元):800,1000,1200,1500,1500,1800,2000,2300,2500,2800,3000,3500,4000,4500,4800,5000 要求:分别用等深分箱方法(箱深为4)、等宽分箱方法(宽度为1000)对其进行平滑,以对数据中的噪声进行处理。;(1)等深分箱结果: (1)首先,划分为等深的箱: 箱1(800,1000,1200,1500); 箱2(1500,1800,2000,2300); 箱3(2500,2800,3000,3500); 箱4(4000,4500,4800,5000) (2)按箱的平均值平滑,结果为: 箱1(1125,1125 ,1125 ,1125 ); 箱2(1900,1900,1900,1900); 箱3(2950,2950,2950,2950); 箱4(4575,4575 ,4575 ,4575 );(1)等深分箱结果: (2)按箱的中值平滑,结果为: 箱1(1100,1100 ,1100 ,1100 ); 箱2(1900,1900,1900,1900); 箱3(2900,2900,2900,2900); 箱4(4650,4650 ,4650

文档评论(0)

ccx55855 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档