- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据
万方数据
Classified Index:TP391.4
Dissertation for the Master Degree in Engineering
Research on Data Missing Problem of Imbalanced Data Set
Candidate: Zhang Tingting
Supervisor: Li Peng
Academic Degree Applied for: Master of Engineering Specialty: Computer Science and Technology Date of Oral Examination: March, 2016
University: Harbin University of Science and Technology
哈尔滨理工大学硕士学位论文原创性声明
本人郑重声明:此处所提交的硕士学位论文《面向失衡数据集的数据缺失 问题研究》,是本人在导师指导下,在哈尔滨理工大学攻读硕士学位期间独立进 行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已 发表或撰写过的研究成果。对本文研究工作做出贡献的个人和集体,均已在文 中以明确方式注明。本声明的法律结果将完全由本人承担。
作者签名:张婷婷 日期: 2016 年 3 月 29 日
哈尔滨理工大学硕士学位论文使用授权书
《面向失衡数据集的数据缺失问题研究》系本人在哈尔滨理工大学攻读硕 士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归哈尔滨理 工大学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解哈 尔滨理工大学关于保存、使用学位论文的规定,同意学校保留并向有关部门提 交论文和电子版本,允许论文被查阅和借阅。本人授权哈尔滨理工大学可以采 用影印、缩印或其他复制手段保存论文,可以公布论文的全部或部分内容。
本学位论文属于
保密 ,在 年解密后适用授权书。 不保密√ 。
(请在以上相应方框内打√)
作者签名:张婷婷
日期:
2016 年
3 月
29 日
导师签名:李鹏
日期:
2016 年
3 月
29 日
哈尔滨理工大学工学硕士学位论文
哈尔滨理工大学工学硕士学位论文
面向失衡数据集的数据缺失问题研究
摘 要
失衡数据集是数据挖掘领域中广泛存在数据状态,由于不同类别的数据 样本数量差异悬殊而使得正常的分类算法效果不明显。在数据挖掘领域中还 有一个不可避免的问题就是数据缺失,即数据集在收集或者保存时由于环境 等因素而产生的数据值缺失或者属性缺失,造成的结果可能是丢失数据信息 所要表达的知识。数据集的失衡和缺失给数据分析以及知识发现带来了困 难,因此对此类数据集的研究已经受到了越来越多的关注。随着计算机技术 突飞猛进的发展,基于数据挖掘与机器学习的分类问题成为企业及组织快速 决策、准确判断和有效辅助的方法,而数据缺失的失衡数据集普遍的存在于 计算机科学、生物信息学、经济学等可利用的领域中,对于失衡问题人们常 常关心的是少数类的情况,对于数据缺失则常常关心的是缺失的有用信息, 因而对这类数据集的解决就特别的重要。
本文先描述了失衡数据集以及数据缺失的问题,总结了国内外专家对此 类数据集的成果,论述了数据缺失的失衡数据集对分类的影响、常用的处理 办法以及分类器的性能评价标准,详细地介绍了数据值缺失和属性缺失。在 最大限度的利用数据集中已存在数据的基础上,提出了采用基于密度聚类与 灰色管理分析技术相结合的数据值填补策略,同时运用迁移学习的方法对数 据集中属性缺失进行解决,利用谱特征排列算法对属性进行增强,并结合利 用密度聚类的簇边界采样,处理数据集中样本不平衡,将支持向量机作为分 类模型,对经过上述步骤的数据集分类。最后,将数据缺失的失衡数据集处 理问题应用到基于数据挖掘的辅助医疗诊断中,并且利用真实的医学数据验 证了本文提出的方法可以获得较好的分类效果,为医生的诊断提供协助的作 用。
关键词 失衡数据集;数据缺失;数据值填补;迁移学习
I -
Research on Data Missing Problem of Imbalanced Data Set
Abstract
Imbalanced data set is a widespread data form in the area of data mining. Due to the wide gap of quantity of different categories data samples, the effect of normal classification algorithm is not obvious. In the field of data
您可能关注的文档
- 酶解法提取杜仲籽壳中杜仲胶及桃叶珊瑚苷软膏的制备-林产化学加工工程专业毕业论文.docx
- 罗哌卡因复合右美托咪定对腋路臂丛神经阻滞的影响-麻醉学专业毕业论文.docx
- 马铃薯晚疫病抗性材料花药培养的研究-作物遗传育种专业毕业论文.docx
- 煤矿班组安全自主管理研究与应用工业工程专业毕业论文.docx
- 科研考核压力与人际竞争对博士生突破性创新意愿的影响研究-企业管理专业毕业论文.docx
- 美国大学生社会实践“服务学习”及其借鉴)-高等教育学专业毕业论文.docx
- 民办高校非英语专业学生听实词策略的实证研究-英语语言文学专业毕业论文.docx
- 民国时期邮政储金汇业局长沙分局研究-中国近现代史专业毕业论文.docx
- 黄芪甲苷对胃癌细胞的作用效果及相关机制的研究-免疫学专业毕业论文.docx
- 民国时期安徽棉产改良与推广研究-中国近现代史专业毕业论文.docx
- “教育数据主权在数字教育领域的法律保护与监管研究”教学研究课题报告.docx
- 教育数据跨境流动的法律监管与数据跨境传输监管政策优化研究教学研究课题报告.docx
- 航天领域数字水印技术在论文版权保护中的实证研究教学研究课题报告.docx
- 农村人居环境整治长效机制与农村废弃物资源化利用研究教学研究课题报告.docx
- 《教育数据跨境流动的法律监管体系构建与实施策略》教学研究课题报告.docx
- 教育数字化转型背景下政府角色与政策工具在区域教育协同发展中的应用教学研究课题报告.docx
- 数字水印技术在通信文档版权保护与版权保护技术风险控制效果评估研究教学研究课题报告.docx
- 数字经济时代个人信息保护的法律制度创新与挑战教学研究课题报告.docx
- 数字包容性在教育数字化转型中的技术伦理与法律问题研究教学研究课题报告.docx
- 脑机接口辅助的沉浸式冰岛语学习认知神经机制探究教学研究课题报告.docx
原创力文档


文档评论(0)