一种改进缺值属性填补方法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进缺值属性填补方法

一种改进缺值属性填补方法摘 要: 在现实数据库数据挖掘属性值缺失的情况经常发生,对于为决策分析提供支持的数据仓库需要高质量的数据,因此必须对数据进行处理,本文就数据处理提出了新的观点,采用抽样的方法对于缺失数据填补。 关键词: 缺值属性; 数据处理; 数据挖掘 中图分类号: TP311 文献标识码: A 文章编号: 1009-8631(2012)08-0107-02 1 问题的提出 在现实数据库数据挖掘过程中,由于受各种条件限制,数据挖掘的数据对象集合中,属性值缺失的情况经常发生甚至是不可避免的。造成这种现象的原因是多方面的,比如:某些令人感兴趣的属性,如销售事务中顾客的信息,并非总是可用的;其他数据没有包含在内,可能只是因为输入时认为是不重要的;相关数据没有记录可能是由于理解错误,或者因为数据采集或存储设备发生故障;此外,记录历史或修改的数据可能被忽略。 对于为决策分析提供支持的数据仓库而言,参与数据挖掘和知识发现数据的质量,是挖掘出知识精确、实用的前提。无法想象在虚假、劣质数据泛滥的数据集上,能发现、找到有用的知识和规则。因为脏数据能够使挖掘过程陷入混乱,导致不可靠的输出,并且数据挖掘算法本身更致力于避免数据过分适合所建的模型,这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此,在进行数据挖掘前,对数据进行相关的处理,例如:填补空缺数据项、平滑噪声数据、识别或去除异常数据和解决不一致数据等过程,对于提高数据质量,为随后的数据挖掘、知识发现提供优质的数据,是一个非常必要的步骤、程序,一般称为数据预处理。 2 缺值属性的一般处理 数据预处理完成的工作主要有:数据清理、数据集成、数据转换和数据归约等。在实际数据预处理过程中,碰到的问题是数据中存在着相当数量的空缺值,为此,需要花费相当的精力、时间填补这些空缺值。填补空缺值是数据挖掘前数据预处理的重要环节,其方法技术比较多,主要有删除元组、数据补齐和不处理三类。在数据补齐中多采用手工填补、利用缺省值填补、利用均值填补、利用同类别均值填补、利用最有可能的值填补等方法。属性缺失值处理的方法有很多,其中最简单的就是去除带有丢失数据的例子,或者用最常出现的数据值代替丢失的数据。QulnlnaJR等人建议,基于其他己知属性的值和分类信息来预测一个数据的丢失值。2000年EloudiZ等人提出了一种基于置信度函数的决策树。2002年于海跃等人在粗糙集理论的知识表达系统中引入空值,提出了知识表达系统中空值的分类处理,并给出了分类处理的算法。这些方法都是对缺值属性使用了猜测技术,但是猜测的数据并不能保证是正确的数据。因此本文利用了抽样填补的思想,在不改变整个信息系统的规律的同时,可以快速得到规则集,对数据进行分类时可以得到较高的准确率。 3 决策树算法中缺失值处理 3.1奈奎斯特采样定律 奈奎斯特采样定律是信息论中的一个重要基本结论,它又称香农采样定律。采样就是将一个信号转换成一数值序列。如果信号是带限的,并且采样频率高于信号最高频率的一倍,那么,原来的连续信号可以从采样样本中完全重建出来。 连续信号在时间(或空间)上以某种方式变化着,而采样过程则是在时间(或空间)上,以T为单位间隔来测量连续信号的值。T称为采样间隔。在实际中,如果信号是时间的函数,通常他们的采样间隔都很小,一般在毫秒、微秒的量级。采样过程产生一系列的数字,称为样本。样本代表了原来地信号。每一个样本都对应着测量这一样本的特定时间点,而采样间隔的倒数,1/T即为采样频率,fs,其单位为样本/秒,即赫兹(hertz)。 信号的重建是对样本进行插值的过程,即从离散的样本x[n]中,用数学的方法确定连续信号x(t)。 从采样定理中,我们可以得出以下结论: 如果已知信号的最高频率fH,采样定理给出了保证完全重建信号的最低采样频率。这一最低采样频率称为临界频率或奈奎斯特采样率,通常表示为fN。相反,如果已知采样频率,采样定理给出了保证完全重建信号所允许的最高信号频率。 以上两种情况都说明,被采样的信号必须是带限的,即信号中高于某一给定值的频率成分必须是零,或至少非常接近于零,这样在重建信号中这些频率成分的影响可忽略不计。 3.2缺值填补算法规则 我们将训练属性值看作是一个带限的、有一定周期的被采样信号,用一个一定频率的信号对其进行采样,采样出来的数值将其填入缺值中,这样就可以保证填入的属性值具有随机性,但是仍然有一定的规律。下面是算法的流程: 在抽样之前,先将所有的空缺只都替换为NULL,在属性结束的地方标记@符号,便于程序执行。 4 填补效果评价 为了评价算法性能,我们将算法应用于UCI机器学习数据库中的数据集,将填补值与其对应的真实值进行比较。由于原

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档