半监督学习中不平衡数据集分类研究软件工程专业论文.docxVIP

下载本文档

20
0
约6.15万字
约 64页
2019-02-09 发布于上海
举报
版权申诉

半监督学习中不平衡数据集分类研究软件工程专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

半监督学习中不平衡数据集分类研究软件工程专业论文

硕士学位论文半监督学习中不平衡数据集分类研究硕士学位论文半监督学习中不平衡数据集分类研究 Research on Imbalanced Dataset Classification in Semi·supervised Learning 学号：窒!量坦鱼丝完成日期：星Q!墨么墨丝大连理工大学 Dalian Univd-sity of Technology 万方数据大连理工大学学位论文独创性声明作者郑重声明：所呈交的学位论文，是本人在导师的指导下进行研究大连理工大学学位论文独创性声明作者郑重声明：所呈交的学位论文，是本人在导师的指导下进行研究工作所取得的成果。尽我所知，除文中己经注明引用内容和致谢的地方外，本论文不包含其他个人或集体已经发表的研究成果，也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处，本人愿意承担相关法律责任。学位论文题目：圭堕鳌堂翌主丕±煎数堡苤佥耋翌窒作者签名：——年鹕L噍且好上月]L日万方数据大连理工大学硕士学位论文摘大连理工大学硕士学位论文摘要随着现代科学技术的发展，如何从海量数据中挖掘出隐藏的信息、规律吸引了大量研究学者的关注。分类方法作为数据挖掘的一个重要手段被广泛应用于实际生活中，然而分类是受到很多因素制约的，除了分类器本身的原因，还包括样本复杂度、样本分布等原因，其中，样本分布对分类方法有着重要的影响。由于大多数的传统分类器建立在数据集中各个类别样本数分布相同的假设基础上，一旦数据集存在不平衡的样本分布，分类器就会明显偏向于强势类，使得弱势类难以被正确分类。不平衡数据集的分类问题不仅困扰着监督学习的方法，而且对半监督学习方法有着一样的问题，然而传统的不平衡数据集分类方法基本是在监督学习领域中，半监督学习领域中，关于不平数据集分类的研究非常少。由于半监督学习领域中，数据集的特点是少量的有标签数据和大量的无标签数据，且重采样方法需要判断分类边界而显得不太适合，因此，本文主要关注于半监督学习中不平衡数据集的分类研究。考虑到半监督学习领域中大量无标签数据的存在，本文提出一种基于样本信息量的迭代最近邻过采样(SI—INNO)方法，在分类开始前，通过样本的相似性，将一部分无标签数据转化为有标签数据，SI．INNO结合了样本的信息量来选择样本，更加合理地改进数据集的样本分布。这种方法不仅适用于二分类数据集，同样适用于多分类数据集。实验中，本文分析了SI．INNO算法在处理不平衡数据集时，有标签数据集和整体数据集不平衡度的关系。在大量的数据集上实验表明，结合本文所提算法对预处理数据集后，再使用半监督分类算法进行分类，可以改进原有算法在针对不平衡数据集分类时所出现的偏差问题。因此，结合了SI—INNO的半监督分类算法对不平衡数据集的分类有更好的鲁棒性。关键词：不平衡数据集分类：半监督学习；最近邻过采样万方数据半监督学习中不平衡数据集分类研究Research 半监督学习中不平衡数据集分类研究 Research on Imbalanced Dataset Classification in Semi—supervised Learning Abstract W曲the development of modern science and technology，how to dig out the hidden information a11d useful rule from the huge data has attracted more and more aaentioIL Classification methods are widely used in the real application as an important measure ofdata mining．However,Classification is restricted by many factors．Except for the cause of the classifier itself,but also includes sample complexity,sample distr如ution,etc．Amongthem,the sample distr自aution has important influence on classification methods．As most traditional classifiersarebuilt011thehypothesisthateveryclass hasthe samenumberofsamples in