- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据
万方数据
Classified Index:TP391.4
Dissertation for the Master Degree in Engineering
Research on Imbalanced Data Sparsity Problems
Candidate: Feng Xueyuan
Supervisor: Qiao Peili
Academic Degree Applied for: Master of Engineering Specialty: Software Engineering Date of Oral Examination: March, 2016
University: Harbin University of Science and Technology
哈尔滨理工大学硕士学位论文原创性声明
本人郑重声明:此处所提交的硕士学位论文《面向失衡数据的稀疏性问题 的研究》,是本人在导师指导下,在哈尔滨理工大学攻读硕士学位期间独立进 行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已 发表或撰写过的研究成果。对本文研究工作做出贡献的个人和集体,均已在文 中以明确方式注明。本声明的法律结果将完全由本人承担。
作者签名: 日期: 年 月 日
哈尔滨理工大学硕士学位论文使用授权书
《面向失衡数据的稀疏性问题的研究》系本人在哈尔滨理工大学攻读硕士 学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归哈尔滨理工 大学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解哈尔 滨理工大学关于保存、使用学位论文的规定,同意学校保留并向有关部门提交 论文和电子版本,允许论文被查阅和借阅。本人授权哈尔滨理工大学可以采用 影印、缩印或其他复制手段保存论文,可以公布论文的全部或部分内容。
本学位论文属于
保密 ,在 年解密后适用授权书。 不保密√ 。
(请在以上相应方框内打√)
作者签名:
日期:
年
月
日
导师签名:
日期:
年
月
日
哈尔滨理工大学工程硕士学位论文
哈尔滨理工大学工程硕士学位论文
面向失衡数据的稀疏性问题的研究
摘 要
面向失衡数据的稀疏性问题是数据挖掘领域中的研究 难点之一。近年 来,随着全球信息科技的飞速发展和计算机技术的不断提高,数据挖掘系统 已经成功运用到医学、电信、金融、工业生产等领域。然而,现实应用中普 遍存在着稀疏失衡数据集,这种数据集同时具有稀疏性和失衡性的特征,即 数据集在宏观上存在类别的不平衡性,大量数据中只有很小的一类数据是人 们需要的,通常很难被识别和准确分类;在微观上数据集中存在大量数据值 缺失,这种缺失一般是由于数据采集过程中的各种因素所造成的,如果在预 处理阶段没有采取有效的缺失值处理措施,将会对接下来的数据分类,尤其 对失衡数据的分类造成很大影响。基于数据挖掘的应用系统在利用大量历史 数据获取有用知识的同时,由于数据稀疏性和失衡性问题而导致系统的挖掘 的精度和执行效率大大降低。因此,如何在失衡数据分类过程中更好地解决 稀疏性问题引起广大学者以及研究人员的重视和深入研究。
本文介绍了解决数据稀疏性问题和解决数据失衡性问题的研究现状, 并对数据失衡和稀疏问题进行了深入探讨,阐述了数据稀疏性和失衡性问题 的根本原因,以及目前所采用的解决办法。针对稀疏失衡数据集,考虑到其 形态的复杂性,从数据集的稀疏性和失衡性两方面因素所导致的问题出发提 出了完整的解决方案。在失衡数据集的预处理阶段采用基于稀疏数据聚类的 方法对数据集进行缺失值填充:首先提出了基于聚类协同过滤算法的单层填 充方法对含有缺失值的数据集进行一次性填充;其次针对单层填充方法的不 足进行改进,提出了递归增量式聚类填充方法,通过对比填充值和真实值的 误差,验证了递归增量式填充相对单层聚类填充方法准确性和效率上的提 高,以及两者相比传统缺失值处理方法的优势。最后,对于预处理阶段输出 的数据集提出了基于随机游走模型的失衡数据集分类算法,专门面向失衡数 据集从算法端解决其失衡性问题,实验选择经过缺失值填充的具有不同失衡 比的数据集进行对比实验,并通过 ROC 曲线对分类结果进行评价,从而验 证了解决失衡数据集稀疏问题的重要性以及整个解决方案的有效性。
关键词 失衡数据集;稀疏性;缺失值填充;分类
I -
Research on Imbalanced Data Sparsity Problems Abstract
The sparsity problem of imbalanced data is one of the difficulties in the field of
data min
您可能关注的文档
- 煤矿区水土保持综合效益评价指标体系分析-环境工程专业毕业论文.docx
- 美国临床护理专家形成要素分析-护理学专业毕业论文.docx
- 面向信号的ATS软件平台研究─系统建模工具与运行时服务设计-仪器仪表工程专业毕业论文.docx
- 黄瓜、番茄潮汐灌溉穴盘育苗方式下 最佳供液方案研究-园艺专业毕业论文.docx
- 氯离子侵蚀条件下混凝土中钢筋锈蚀模型研究-结构工程专业毕业论文.docx
- 黄河流域河南段菊科主要外来种对不同环境梯度的适应性研究-生态学专业毕业论文.docx
- 科研项目过程评估研究-管理科学与工程专业毕业论文.docx
- 氯化钙溶液对中华绒螯蟹多倍体诱导的有效性研究水产养殖专业毕业论文.docx
- 煤矿安全管理信息系统开发与应用研究-软件工程专业毕业论文.docx
- 绵阳移动网络电子业务信息管理系统设计与实现-软件工程专业毕业论文.docx
原创力文档


文档评论(0)