第2章数据预处理浅析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
;第3章 数据预处理;1、杂乱性 如性别: A数据库 male=1 , female=2 B数据库 male=‘男’ ,female=‘女’ C数据库 male=‘M’ , female=‘F’;2、重复性 同一客观事物在数据库中存在两个以上相同的物理描述 假设某周刊有100000个订户,邮件列表中0.1%的记录是重复的,主要是一个名字有不同的写法 Jon Doe 和John Doe 因此,每周需要印刷和邮寄100份额外的刊物,假设每周的邮寄和印刷费用是两圆,公司每年将浪费10000元以上 ;3、不完整性 由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定,原因可能有: (1)有些属性的内容有时没有 (家庭收入,参与销售事物数据中的顾客信息) (2)有些数据当时被认为是不必要的 (3)由于误??或检测设备失灵导致相关数据没有记录下来 (4)与其它记录内容不一致而被删除 (5)忽略了历史数据或对数据的修改;4、噪声数据 数据中存在着错误或异常(偏离期望值),血压和身高为0就是明显的错误,当数据缺失且用默认值来填充缺失项时,很容易发生这类错误。 (1)数据采集设备有问题 (2)数据录入过程中发生了人为或计算机错误 (3)传输过程中发生错误 ;4.2 数据预处理的功能 数据清理(清洗) ------可以去掉数据中的噪声,纠正不一致 数据集成 -----将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库或数据立方体 数据变换(转换) --- 将一种格式的数据转换为另一格式的数据(如规范化) 数据归约(消减) ----可以通过聚集、删除冗余特性或聚类等方法来压缩数据 ;;4.3 数据清理(清洗) 数据清理完成: 填充空缺的值 识别孤立点 消除噪声 纠正数据中的不一致 ;一、遗漏数据的处理 (1)忽略该元组 若一条记录中有属性值被遗漏了,则将该记录排除在数据挖掘之外;尤其当类标号缺少时通常这样做(假定挖掘任务涉及分类或描述)。当每个属性缺少值的百分比变化很大时,它的性能非常差。 ; (2)人工填写空缺值 当数据集很大、缺少很多值时,该方法可能行不通。 (3)使用一个全局常量填充空缺值 (4)使用属性的平均值填充空缺值 ; 将空缺的属性值用同一个常数(如“Unknown”或)替换。如果空缺值都用“Unknown”替换,当空缺值较多时。挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“Unknown”。因此,尽管该方法简单,我们并不推荐它。;例如,假定AllElectronics顾客的平均收入为$28 000,则使用该值替换income中的空缺值;(5)利用同类别均值填补遗漏数据 例如,如果将顾客按credit risk分类, 则用具有相同信用度的顾客的平均收入替换income中的缺值 (6)使用最可能的值填充空缺值 ;二、噪声数据 噪声(noise)是一个测量变量中的随机错误或偏差。给定一个数值属性,例如price,我们怎样才能平滑数据,去掉噪声? ; (1)分箱(binning) 分箱方法通过考察“邻居”(即周围的值)来平滑存储数据的值。存储的值被分布到一些“桶”或箱中。由于分箱方法参考相邻的值,因此它进行局部平滑。下图展示示了一些分箱技术。 ;; (2)聚类(clustering) 通过聚类分析可以检测孤立点,聚类将类似的值组织成群或“聚类”。直观地看,落在聚类集合之外的值被视为孤立点 ;(3)计算机和人工检查结合 可以通过计算机和人工检查结合的办法来识别孤立点。 ;(4)回归(regression) 可以利用拟合函数(如回归函数)来平滑数据。 如线性回归涉及找出适合两个变量的“最佳”直线,使得一个变量能够预测另一个。多线性回归是线性回归的扩展,它涉及多于两个变量,数据要适合一个多维面。使用回归,找出适合数据的数学方程式,能够帮助消除噪声。 ; 许多数据平滑的方法也是涉及离散化的数据归约方法。例如

文档评论(0)

***** + 关注
实名认证
文档贡献者

我是自由职业者,从事文档的创作工作。

1亿VIP精品文档

相关文档