- 1、本文档共73页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
缺失值填充的的若干问题研究
缺失值填充的若干问题研究
年 级:2004 级
研究生:朱晓峰
专 业:计算机软件与理论
摘
要
方
向:数据挖掘
数据缺失在实际应用中是经常发生的,甚至是不可避免的。造成数据缺失可能是信息
(暂时)无法获取或者在操作过程中被遗漏等。数据缺失对数据挖掘的过程和结果都有十分
严重的影响。数据缺失可能直接影响到模式发现的准确性和运行性能,甚至导致错误的挖
掘模型。处理有缺失数据的数据集是极端困难的,因为,现有的模式发现算法通常假设输
入的数据是无缺失的。于是,这些可用的模式发现算法和实际数据之间存在一条不可逾越
的鸿沟。
缺失数据的处理方法可分为删除元组、缺失数据填充和不处理三大类。Han 和 Zhang
等认为,从使用的频率和研究的程度等各方面来看,填充方法是最常用的一种处理缺失值
的方法,因此,本论文研究如何用填充的方法处理缺失数据。填充缺失数据的方法无论是
在技术上还是理论上都得到了空前的重视,国际上有很多专门机构研究这个问题,例如:
美国宾州大学和佛蒙特大学都成立有专门的研究小组。但是,无论在统计方面还是数据挖
掘领域的缺失填充方法仍然存在许多致命的缺陷。首先,现实数据集通常缺失十分严重,
常见的填充方法仅仅利用没有缺失值的完全事例去填充缺失的数据。这类处理方式一方面
可能要面对可用信息不足;另一方面忽略了含有缺失值的事例中的有效信息,这样不仅造
成了资源浪费,而且填充效果也会出现偏差。其次,用户对所处理的数据集通常没有任何
先验知识,常用的参数填充方法经常可能由于参数的错误估计而导致填充的结果严重失
实,存在的非参数填充方法在技术上和理论上都很粗糙,并且只在本应用范围内十分有效,
一旦被应用到其他应用领域或者一些交叉应用领域,这些在某领域内十分优秀的方法可能
会导致极差的填充效果。
上述表明,缺失数据填充是一个实际且具有挑战性的研究课题。本论文研究缺失数据
填充的如下三方面问题。
填充决策属性的缺失问题:本论文提出的 DAIM 算法能处理混合类型的条件属
性,算法首次使用基于混和核的非参重复填充方法填充离散型或者连续型缺失决
策属性,并且提出了一种新颖的发现最优窗宽(bandwidth)的网格搜索(grid
search)方法,能在有限的空间内穷举式地搜索最优窗宽,大大地减少搜索空间
和时间。
在缺失值填充过程中研究了填充代价和填充代价约束的问题:本论文首次提出建
立代价敏感的填充器必须考虑构造填充器的有效信息问题,算法折中考虑了经济
I
缺失值填充的的若干问题研究
因素和构造填充器所需有效信息来对缺失数据进行排序,提出了一个考虑填充顺
序的条件属性缺失的增量式填充算法 CAIM。
条件属性和决策属性同时有缺失的问题:本论文分析了 kNN 算法中 Minkowski
距离公式正确选择 Minkowski 参数的复杂性,提出了用灰色分析的方法代替
Minkowski 距离的思想,然后分析了填充缺失值充分利用所有有效信息的必要性,
并且提出非参重复填充方法来充分利用所有有效信息的理论,最后的填充算法
CDAIM 能处理条件属性和决策属性同时缺失的情况。
本论文的每种算法都用模拟数据和真实数据进行评估和分析,在各个评价指标的比较
中,本论文的算法都优于存在的一些经典算法。
本论文的主要创新点如下:(1)在对所处理的数据集的分布没有任何先验知识的情
况下,参数填充方法经常由于错误的参数估计导致填充的结果严重失实,此时非参方法是
一个很好的替换,但是存在的非参方法在技术上和理论上都很粗糙,本论文的三个算法都
对传统的非参方法进行了改进。为了充分利用所有有效的信息,本论文的三个算法都采用
重复填充技术。区别于存在的参数重复填充算法(例如 EM 算法),本论文提出的非参数
重复填充算法收敛速度要比现有的参数重复填充算法 EM 算法快,且填充效果上优于一次
填充或者多重填充的效果。本论文的三个非参重复填充方法既丰富了重复填充算法理论,
也是对非参理论无重复算法的填补。 2)本论文在核填充方法中首次引入混合核,在填充
过程中能加强核函数的内插能力和外延能力;在最近邻算法中使用灰色分析代替
Minkowski 距离的方法,弥补了由于选择 Minkowski 参数造成填充效果不稳定的缺陷。
这些研究建立了新的缺失值填充的理论、方法和技术。 3)本论文首次把填充代价和构造
填充器所需的有效信息综合考虑,把填充理论和代价理论有机地融合在一起进行研究。
关键词:缺失值填充,增量填充,重复填充,代价敏感,混合核,核函数,最近邻算法
关键词个数太多
II
缺失值填充的的若干问题研究
Studies on Missing Data Imputation
Major:
Grade:
Compute
您可能关注的文档
最近下载
- 基于大模型的生成式检索.pdf VIP
- 西门子伺服操作说明书-SINAMICS_V90_OPI.pdf VIP
- 电力工程施工安全与质量控制管理.docx VIP
- Packing List-装箱单表格模板.xls VIP
- 电力工程施工安全及质量控制管理.doc VIP
- 2025年最新版硫化氢考试题库大全集.doc VIP
- [江西]发电厂2×600mw级机组“上大压小”土建工程施工组织设计.doc VIP
- 《护患沟通技巧》ppt课件.pptx VIP
- 县乡教师选调进城考试《教育心理学》题库及答案(各地真题).docx VIP
- 发电厂“上大压小”2×600MW超临界空冷机组工程土建专业主要施工方案.docx VIP
文档评论(0)