- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
缺失值填充的的若干问题研究
缺失值填充的若干问题研究
年 级:2004 级 研究生:朱晓峰
专 业:计算机软件与理论 方 向:数据挖掘
摘 要
数据缺失在实际应用中是经常发生的,甚至是不可避免的。造成数据缺失可能是信息
(暂时)无法获取或者在操作过程中被遗漏等。数据缺失对数据挖掘的过程和结果都有十分
严重的影响。数据缺失可能直接影响到模式发现的准确性和运行性能,甚至导致错误的挖
掘模型。处理有缺失数据的数据集是极端困难的,因为,现有的模式发现算法通常假设输
入的数据是无缺失的。于是,这些可用的模式发现算法和实际数据之间存在一条不可逾越
的鸿沟。
缺失数据的处理方法可分为删除元组、缺失数据填充和不处理三大类。Han 和Zhang
等认为,从使用的频率和研究的程度等各方面来看,填充方法是最常用的一种处理缺失值
的方法,因此,本论文研究如何用填充的方法处理缺失数据。填充缺失数据的方法无论是
在技术上还是理论上都得到了空前的重视,国际上有很多专门机构研究这个问题,例如:
美国宾州大学和佛蒙特大学都成立有专门的研究小组。但是,无论在统计方面还是数据挖
掘领域的缺失填充方法仍然存在许多致命的缺陷。首先,现实数据集通常缺失十分严重,
常见的填充方法仅仅利用没有缺失值的完全事例去填充缺失的数据。这类处理方式一方面
可能要面对可用信息不足;另一方面忽略了含有缺失值的事例中的有效信息,这样不仅造
成了资源浪费,而且填充效果也会出现偏差。其次,用户对所处理的数据集通常没有任何
先验知识,常用的参数填充方法经常可能由于参数的错误估计而导致填充的结果严重失
实,存在的非参数填充方法在技术上和理论上都很粗糙,并且只在本应用范围内十分有效,
一旦被应用到其他应用领域或者一些交叉应用领域,这些在某领域内十分优秀的方法可能
会导致极差的填充效果。
上述表明,缺失数据填充是一个实际且具有挑战性的研究课题。本论文研究缺失数据
填充的如下三方面问题。
填充决策属性的缺失问题:本论文提出的 DAIM 算法能处理混合类型的条件属
性,算法首次使用基于混和核的非参重复填充方法填充离散型或者连续型缺失决
策属性,并且提出了一种新颖的发现最优窗宽(bandwidth)的网格搜索(grid
search )方法,能在有限的空间内穷举式地搜索最优窗宽,大大地减少搜索空间
和时间。
在缺失值填充过程中研究了填充代价和填充代价约束的问题:本论文首次提出建
立代价敏感的填充器必须考虑构造填充器的有效信息问题,算法折中考虑了经济
I
缺失值填充的的若干问题研究
因素和构造填充器所需有效信息来对缺失数据进行排序,提出了一个考虑填充顺
序的条件属性缺失的增量式填充算法CAIM。
条件属性和决策属性同时有缺失的问题:本论文分析了 kNN 算法中 Minkowski
距离公式正确选择 Minkowski 参数的复杂性,提出了用灰色分析的方法代替
Minkowski 距离的思想,然后分析了填充缺失值充分利用所有有效信息的必要性,
并且提出非参重复填充方法来充分利用所有有效信息的理论,最后的填充算法
CDAIM 能处理条件属性和决策属性同时缺失的情况。
本论文的每种算法都用模拟数据和真实数据进行评估和分析,在各个评价指标的比较
中,本论文的算法都优于存在的一些经典算法。
本论文的主要创新点如下:(1)在对所处理的数据集的分布没有任何先验知识的情
况下,参数填充方法经常由于错误的参数估计导致填充的结果严重失实,此时非参方法是
一个很好的替换,但是存在的非参方法在技术上和理论上都很粗糙,本论文的三个算法都
对传统的非参方法进行了改进。为了充分利用所有有效的信息,本论文的三个算法都采用
重复填充技术。区别于存在的参数重复填充算法(例如EM 算法),本论文提出的非参数
重复填充算法收敛速度要比现有的参数重复填充算法EM 算法快,且填充效果上优于
您可能关注的文档
- 契约自由原则及发展.pdf
- 铅锑锌铁硫化矿电化学浮选行为及其表面吸附研究.pdf
- 前瞻性Meta分析在大型卫生项目评价中的应用___评价CHIMACA项目对分娩服务质量的影响.pdf
- 浅论干宝的神道思想.pdf
- 浅析贝多芬奏鸣曲OP111第一乐章音乐特征及其演奏特点.pdf
- 欠发达地区循环经济发展障碍及其对策的研究.pdf
- 强筋健骨汤治疗膝骨性关节炎的临床疗效观察.pdf
- 强力霉素对脑缺血再灌注大鼠血脑屏障通透性的影响及其机制的研究.pdf
- 强震地面运动超随机特性的若干的研究.pdf
- 羟基磷灰石义眼台眶内植入时机及其术式的对比的研究.pdf
- 缺血后处理对肝脏缺血—再灌注损伤的保护作用及机制的实验的研究.pdf
- 缺血性中风急性期中医证型及其神经功能缺损程度和血浆Hcy、Fg的关系探讨.pdf
- 热荷载作用下浮法玻璃和LowE玻璃破裂行为的研究.pdf
- 热塑挤压蒸煮技术对鱼肉蛋白质组织化的应用的研究.pdf
- 人工免疫系统架构及在Modis数据分类中的应用的研究.pdf
- 人教版、北师大版、苏教版初中语文教材之比较.pdf
- 人类肛门直肠正常胚胎发育及其CDX1TCF4和先天性肛门直肠畸形发生关系研究.pdf
- 人力资源可持续发展的研究.pdf
- 人凝血酶的微流控芯片电化学检测.pdf
- 认知障碍患者血清脑源性神经营养因子的测定及其临床意义.pdf
文档评论(0)