- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章 数据预处理
《 数据仓库与数据挖掘》;*;数据挖掘: 数据库中的知识挖掘(KDD); 第 4 章;*;1)杂乱性:如命名规则的不同
如性别:
A数据库 male=1 , female=2
B数据库 male=‘男’ ,female=‘女’
C数据库 male=‘M’ , female=‘F’;2)重复性:同一客观事物在数据库中存在两个以上相同的物理描述。
假设某周刊有100000个订户,邮件列表中0.1%的记录是重复的,主要是因为同一个客户的名字可能有不同的写法,如:Jon Doe和John Doe。
因此,每周需要印刷和邮寄100份额外的刊物,假设每份刊物每周的邮寄和印刷费用是两美元,公司每年将至少浪费1万美元以上。
;3)不完整性:由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定。
原因可能有:
(1)有些属性的内容有时没有
(家庭收入,参与销售事务数据中的顾客信息)
(2)有些数据当时被认为是不必要的
(3)由于误解或检测设备失灵导致相关数据没有记录下来
(4)与其它记录内容不一致而被删除
(5)忽略了历史数据或对数据的修改;4)噪声数据:数据中存在着错误或异常(偏离期望值)
如:血压和身高为0就是明显的错误
噪声数据的产生原因:
数据采集设备有问题;
在数据录入过程发生人为或计算机错误;
数据传输过程中出现错误;
由于命名规则或数据代码不同而引起的不一致。;数据清理(清洗)
----去掉数据中的噪声,纠正不一致
数据集成
-----将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库。
数据变换(转换)
-----将一种格式的数据转换为另一格式的数据(如规范化)
数据归约(消减)
----通过聚集、删除冗余属性或聚类等方法来压缩数据。 ;*;注意:
上述的各种数据预处理方法,并不是相互独立的,而是相互关联的,如消除数据冗余既可以看成是一种形式的数据清洗,也可以看成是一种数据归约(消减)。
;4.1 数据清洗
4.2 数据集成和变换
4.3 数据归约
4.4 数据离散化和概念分层*;*;4.1 数据清洗;1. 空缺值的处理?;*;如何处理空缺值;如何处理空缺值;如何处理空缺值;如何处理空缺值;2. 噪声数据的处理?;噪声数据;如何处理噪声数据 ;如何处理噪声数据 ;如何处理噪声数据 ;示例:
已知一组价格数据:15,21,24,21,25,4,8,34,28
现用等深(深度为3)分箱方法对其进行平滑,以对数据中的噪声进行处理。; 在该例中,price数据首先被划分并存人等深的箱中(深度3)。
对于按箱平均值平滑,箱中每一个值被箱中的平均值替换。例如,箱1中的值4,8和15的平均值是9;这样,该箱中的每一个值被替换为9。
对于按箱边界平滑,箱中的最大和最小值被视为箱边界。箱中的每一个值被最近的边界值替换。
类似地,可以使用按箱中值平滑。此时,箱中的每一个值被箱中的中值替换。;如何处理噪声数据 ;示例:
已知一组价格数据:15,21,24,21,25,4,8,34,28
现用等宽(宽度为10)分箱方法对其进行平滑,以对数据中的噪声进行处理。;练习:
已知客户收入属性income排序后的值(人民币元):800,1000,1200,1500,1500,1800,2000,2300,2500,2800,3000,3500,4000,4500,4800,5000
要求:分别用等深分箱方法(箱深为4)、等宽分箱方法(宽度为1000)对其进行平滑,以对数据中的噪声进行处理。;(1)等深分箱结果:
(1)首先,划分为等深的箱:
箱1(800,1000,1200,1500);
箱2(1500,1800,2000,2300);
箱3(2500,2800,3000,3500);
箱4(4000,4500,4800,5000)
(2)按箱的平均值平滑,结果为:
箱1(1125,1125 ,1125 ,1125 );
箱2(1900,1900,1900,1900);
箱3(2950,2950,2950,2950);
箱4(4575,4575 ,4575 ,4575 );(1)等深分箱结果:
(2)按箱的中值平滑,结果为:
箱1(1100,1100 ,1100 ,1100 );
箱2(1900,1900,1900,1900);
箱3(2900,2900,2900,2900);
箱4(4650,4650 ,4650
文档评论(0)