一种改进缺值属性填补方法.docVIP

下载本文档

3
0
约2.38千字
约 5页
2017-09-05 发布于福建
举报
版权申诉

一种改进缺值属性填补方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种改进缺值属性填补方法

一种改进缺值属性填补方法摘要：在现实数据库数据挖掘属性值缺失的情况经常发生，对于为决策分析提供支持的数据仓库需要高质量的数据，因此必须对数据进行处理，本文就数据处理提出了新的观点，采用抽样的方法对于缺失数据填补。关键词：缺值属性；数据处理；数据挖掘中图分类号： TP311 文献标识码： A 文章编号： 1009-8631（2012）08-0107-02 1 问题的提出在现实数据库数据挖掘过程中，由于受各种条件限制，数据挖掘的数据对象集合中，属性值缺失的情况经常发生甚至是不可避免的。造成这种现象的原因是多方面的，比如：某些令人感兴趣的属性，如销售事务中顾客的信息，并非总是可用的；其他数据没有包含在内，可能只是因为输入时认为是不重要的；相关数据没有记录可能是由于理解错误，或者因为数据采集或存储设备发生故障；此外，记录历史或修改的数据可能被忽略。对于为决策分析提供支持的数据仓库而言，参与数据挖掘和知识发现数据的质量，是挖掘出知识精确、实用的前提。无法想象在虚假、劣质数据泛滥的数据集上，能发现、找到有用的知识和规则。因为脏数据能够使挖掘过程陷入混乱，导致不可靠的输出，并且数据挖掘算法本身更致力于避免数据过分适合所建的模型，这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此，在进行数据挖掘前，对数据进行相关的处理，例如：填补空缺数据项、平滑噪声数据、识别或去除异常数据和解决不一致数据等过程，对于提高数据质量，为随后的数据挖掘、知识发现提供优质的数据，是一个非常必要的步骤、程序，一般称为数据预处理。 2 缺值属性的一般处理数据预处理完成的工作主要有：数据清理、数据集成、数据转换和数据归约等。在实际数据预处理过程中，碰到的问题是数据中存在着相当数量的空缺值，为此，需要花费相当的精力、时间填补这些空缺值。填补空缺值是数据挖掘前数据预处理的重要环节，其方法技术比较多，主要有删除元组、数据补齐和不处理三类。在数据补齐中多采用手工填补、利用缺省值填补、利用均值填补、利用同类别均值填补、利用最有可能的值填补等方法。属性缺失值处理的方法有很多，其中最简单的就是去除带有丢失数据的例子，或者用最常出现的数据值代替丢失的数据。QulnlnaJR等人建议，基于其他己知属性的值和分类信息来预测一个数据的丢失值。2000年EloudiZ等人提出了一种基于置信度函数的决策树。2002年于海跃等人在粗糙集理论的知识表达系统中引入空值，提出了知识表达系统中空值的分类处理，并给出了分类处理的算法。这些方法都是对缺值属性使用了猜测技术，但是猜测的数据并不能保证是正确的数据。因此本文利用了抽样填补的思想，在不改变整个信息系统的规律的同时，可以快速得到规则集，对数据进行分类时可以得到较高的准确率。 3 决策树算法中缺失值处理 3.1奈奎斯特采样定律奈奎斯特采样定律是信息论中的一个重要基本结论，它又称香农采样定律。采样就是将一个信号转换成一数值序列。如果信号是带限的，并且采样频率高于信号最高频率的一倍，那么，原来的连续信号可以从采样样本中完全重建出来。连续信号在时间（或空间）上以某种方式变化着，而采样过程则是在时间（或空间）上，以T为单位间隔来测量连续信号的值。T称为采样间隔。在实际中，如果信号是时间的函数，通常他们的采样间隔都很小，一般在毫秒、微秒的量级。采样过程产生一系列的数字，称为样本。样本代表了原来地信号。每一个样本都对应着测量这一样本的特定时间点，而采样间隔的倒数，1/T即为采样频率，fs，其单位为样本/秒，即赫兹（hertz）。信号的重建是对样本进行插值的过程，即从离散的样本x[n]中，用数学的方法确定连续信号x（t）。从采样定理中，我们可以得出以下结论：如果已知信号的最高频率fH，采样定理给出了保证完全重建信号的最低采样频率。这一最低采样频率称为临界频率或奈奎斯特采样率，通常表示为fN。相反，如果已知采样频率，采样定理给出了保证完全重建信号所允许的最高信号频率。以上两种情况都说明，被采样的信号必须是带限的，即信号中高于某一给定值的频率成分必须是零，或至少非常接近于零，这样在重建信号中这些频率成分的影响可忽略不计。 3.2缺值填补算法规则我们将训练属性值看作是一个带限的、有一定周期的被采样信号，用一个一定频率的信号对其进行采样，采样出来的数值将其填入缺值中，这样就可以保证填入的属性值具有随机性，但是仍然有一定的规律。下面是算法的流程：在抽样之前，先将所有的空缺只都替换为NULL，在属性结束的地方标记@符号，便于程序执行。 4 填补效果评价为了评价算法性能，我们将算法应用于UCI机器学习数据库中的数据集，将填补值与其对应的真实值进行比较。由于原