缺失数据的处理与挑战.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第23卷第6期 钦州学院学报 2008年12月 V01.23No.6 OF UNIVERSITY JOURNAL QINZHOU Dec.,2008 缺失数据的处理和挑战 刘星毅1”,曾春华2,江南雨2,陈振华2,韦小玲2 (1.桂林电子科技大学,广西桂林541004;2.钦州学院,广西钦州535000) [摘要]在数据挖掘研究中,缺失数据是一个非常普遍的问题,如何处理缺失数据也是一个热门的研究 领域.介绍了缺失数据产生的原因,分类总结了缺失数据的处理方法,最后,提出了处理缺失数据的一些挑战性 课题。 [关键词] 数据预处理;缺失数据;填充方法 [中图法分类号]TP331[文献标识码]A [文章编号]1673—8314(2008)06—0025—05 在实际的应用中,由于获取数据的渠道以及 中抽取模式的正确性和导出规则的准确性,导致 对数据结构理解差异等原因,一些数据常被标记 错误的数据挖掘模型,而且由于现阶段大部分处 为“空白”、“未知”或一些特殊标志表示,这种数 理数据的算法都不具备分析和处理有缺失数据的 据通常被称为缺失数据(missingdata)或者是不数据集能力。面对这些有缺失数据的数据集,这 完整数据(incompletedata)。现实中的数据库确些已经被广泛使用的算法或者系统往往无能为 实经常会出现缺失数据,比如社会调查表、工业数 力。因此,对缺失数据进行处理是必要的。 据或者各种网络数据中。 理想情况下,数据集中的每条记录都应该是 缺失数据的处理方法 完整的。然而,存在不完整的、含噪声的数据是大 型的、现实世界数据集的共同特点。造成数据缺 由于缺失数据的普遍性和危害性,专家们¨州 失的原因也是多方面的,主要可能有以下几种…: 很早就对缺失数据的处理问题提出了很多解决方 (1)信息无法获取。例如社会调查表中,被 法。现有的处理方法可以分为删除元组、数据填 调查者故意缺失或者对某些问题的反映依赖于对 充和不处理等三类。 其他问题的回答。 1.1 删除元组 (2)信息被遗漏。数据可能是因为输入时 这种方法的中心思想是将存在缺失数据的记 存在误差或者错误操作而丢失。 录删除,从而得到一个没有含缺失数据的数据集。 (3)属性不可用。如一个儿童的配偶姓名 这种方法简单易行,在含有少量的缺失数据的情 不可能有答案而只能缺失。 况此方法非常有效的。然而,这种以牺牲记录来 (4)信息(被认为)不重要。如有些人认为换取信息的完备的方法,通常会造成资源的大量 申请表的序号不重要而空着,就形成了缺失值。 浪费,例如,在删除记录的同时也丢弃了大量隐藏 (5)获取信息代价大。例如,一些数据由于 在这些记录中的信息。并且,在缺失量比较大的 经济能力限制,只能让某个属性的值空缺。 时候,这种处理方法在处理后对数据集均值和方 (6)系统设置。例如一些系统限制年龄只有 差分布方面都-g-易出现大偏差。 两位数,大于100岁的数据就不能填入,只能空缺。 1.2数据填充 现实应用中,这些缺失的数据能造成非常大 通俗地说,填充方法就是根据没有缺失的记 的影响”J。比如,这些缺失数据会影响从数据集 录,对有缺失的位置猜一个数据去代替缺失的数 [收稿日期]2008—09—18 [基金项目]广西自然科学基金(桂科自0899018),广西教育厅科研项目(200808MS062)。 [作者简介]刘星毅(1972一),男,广西钦州人,桂林电子科技大学硕士研究生,钦州学院电犬教学部教师。 万方数据

文档评论(0)

xuefei111 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档