决策树中数据遗失值填充方法地研究.pdfVIP

下载本文档

3
0
约 5页
2017-08-14 发布于安徽
举报
版权申诉

决策树中数据遗失值填充方法地研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

决策树中数据遗失值填充方法的研究王志松燕山大学机械工程学院河北秦皇岛066004 摘要:数据遗失值填充问a是预处理过程中的一个难点.已有的算法大多寻求数据中属性值与属性值之间的关系，属性与属性值之间的关系，属性与属性间的关系对遗失值进行填充。文章从数据与数据间的关系入手，引入相似度的概念、提出一种新的数据遗失值填充算法.这种算法具有简单、易于理解的特性，可对一个数据具有多个遗失值的情况进行填充。关健词:关联规则，遗失值，决策树，相似度，坡充 TheResearchfortheMethodsInDecisionTreestoFillmissing values W如gZhisong CollegeofMechanicalEngineeringYanshanUniversity,Qinhuangdao066004 Abstract:Fillingdatamissingvaluesisdifficultinprocessing.Themethodsalreadypresentedlookforthe relationshipbetweenattributevalueandattributevalue,attributeandattributevalueorattributeandatrtibute whichisusedasthebaseoffillingthemissingvalues.Inthispaper,welookfortherelationshipbetweendata andits恤presentanewalgorith4mtofillthemissingvalueswhichusethenotionofsimilariyt.Thealgorithmis simpleandunderstoodeasily.Itcanfillseveralmissingvaluesofadata. Keywords:Associationrules;Missingvalues;Decisiontrees;Similariyt;Filling. I引言遗失值问题是一个古老的分析任务t[tl。由于历史或人为的原因，数据中存在遗失值的现象是不可避免的。如果将具有遗失值的数据从数据集中删除，不仅会造成资源的大量浪费，更会丢失掉隐藏在数据中数据挖掘任务所寻求的知识点;但是，对遗失值不正确地填充又往往将新的噪声引入数据中，使挖掘结果产生错误。因此，如何正确地对遗失值进行填充是预处理过程中的一个难点。目前，在解决这个问题上己经有许多算法被相继提出。它们大多寻求数据中属性值与属性值之间的关系，属性与属性之间的关系，属性值与属性之间的关系作为填充的依据。我们在解决这个问题上引入了 “相似度”的概念，寻找数据与数据间的相似关系，作为填充遗失值的基础。重点放在决策树上的遗失值填充问题. 881 z决策树与遗失值决策树中的遗失值问题主要是:如何决定具有遗失值的数据属于哪一个分枝。遗失值问题在数据中是很普遍的。既然要完全避免遗失值问题就无法形成一棵决策树，而删除具有遗失值问题的数据又会造成资源浪费和知识点遗失，那么关键便落在如何对它们进行填充上[[4] 最普遍使用的方法是用相应属性值出现频率最大的值对遗失值进行填充。例如，在数据集S中，对于属性X，它有a,b,c,d四个值，在该属性没有遗失值的数据中，如果a出现的频率是20%,b的是10%,c的是60%,d的是10%，那么在S中X有遗失值的数据都被赋予值a。这个方法在C4.5中得到延伸:具有遗失值的数据被扩展属性分割到各个分枝中，在数据子集中按以上方法进行填充。但人们认为这两种方法不是决定遗失值而是选择一个最普通的值。另一种方法寻找属性与属性间的关系来对遗失值填充。它寻找两个属性，它们间具有最大的相关性。其中没有遗失值现象的一个称为代理属性，另一个称为原始属性，用代理属性决定原始属性中的遗失值I[].Quinlan和Shapiro利用决策数方法对这种方法进行了扩展。设S是训练集.其属性al具有意识值。S是S的子集，S中所有的数据在属性al上并没有遗失值现象。在S中，类别属性被看作