第2章 数据预处理.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘 第二章 数据预处理 由于数据库系统所获数据量的迅速膨胀(已达 或 数量级),从而导致了 现实世界数据库中常常包含许多含有噪声、不完整( )、甚至是不一致 ( )的数据。显然对数据挖掘所涉及的数据对象必须进行预处理。那 么如何对数据进行预处理以改善数据质量,并最终达到完善最终的数据挖掘结果 之目的呢? 数据预处理主要包括:数据清洗 ( )、数据集成 ( )、 数据转换( )和数据消减( )。本章将介绍这四种 数据预处理的基本处理方法。 数据预处理是数据挖掘(知识发现)过程中的一个重要步骤,尤其是在对包 含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数据的预处 理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的 目的。例如:对于一个负责进行公司销售数据分析的商场主管,他会仔细检查公 司数据库或数据仓库内容,精心挑选与挖掘任务相关数据对象的描述特征或数据 仓库的维度( ),这包括:商品类型、价格、销售量等,但这时他或许 会发现有数据库中有几条记录的一些特征值没有被记录下来;甚至数据库中的数 据记录还存在着一些错误、不寻常( )、甚至是不一致情况,对于这样的数 据对象进行数据挖掘,显然就首先必须进行数据的预处理,然后才能进行正式的 数据挖掘工作。 所谓噪声数据是指数据中存在着错误、或异常(偏离期望值)的数据;不完 整( )数据是指感兴趣的属性没有值;而不一致数据则是指数据内涵 出现不一致情况(如:作为关键字的同一部门编码出现不同值)。而数据清洗是 指消除数据中所存在的噪声以及纠正其不一致的错误;数据集成则是指将来 自多 个数据源的数据合并到一起构成一个完整的数据集;数据转换是指将一种格式的 数据转换为另一种格式的数据;最后数据消减是指通过删除冗余特征或聚类消除 多余数据。 不完整、有噪声和不一致对大规模现实世界的数据库来讲是非常普遍 的情 况。不完整数据的产生有以下几个原因:( )有些属性的内容有时没有,如:参 与销售事务数据中的顾客信息 ;( )有些数据当时被认为是不必要的;( )由于 数据挖掘 第二章 数据预处理 误解或检测设备失灵导致相关数据没有记录下来;( )与其它记录内容不一致而 被删除;( )历史记录或对数据的修改被忽略了。遗失数据( ),尤 其是一些关键属性的遗失数据或许需要推导出来。噪声数据的产生原因有:( ) 数据采集设备有 问题;( )在数据录入过程发生 了人为或计算机错误;( )数据

文档评论(0)

精品书屋 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档