网站大量收购独家精品文档,联系QQ:2885784924

不平衡数据的最优分类阈值研究计算机科学与技术专业论文.docxVIP

不平衡数据的最优分类阈值研究计算机科学与技术专业论文.docx

  1. 1、本文档共77页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
不平衡数据的最优分类阈值研究计算机科学与技术专业论文

肼驮禅僦姗撇融本人同意厦门大学根据《中华人民共和国学位条例暂行实施办法》 肼驮禅僦姗撇融 本人同意厦门大学根据《中华人民共和国学位条例暂行实施办法》 等规定保留和使用此学位论文,并向主管部门或其指定机构送交学位 论文(包括纸质版和电子版),允许学位论文进入厦门大学图书馆及 其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、 硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇 编出版,采用影印、缩印或者其它方式合理复制学位论文。 本学位论文属于: ( )1.经厦门大学保密委员会审查核定的保密学位论文,于 年月 目解密,解密后适用上述授权。 ( )2.不保密,适用上述授权。 (请在以上相应括号内打“√或填上相应内容。保密学位论文 应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密 委员会审定的学位论文均为公开学位论文。此声明栏不填写的,默认 为公开学位论文,均适用上述授权。) 声明人 (签名) :懈 ∞形年』月伽日 万方数据 摘要在机器学习领域中,当要分类的数据集类别分布差别较大时,就称为不平衡 摘要 在机器学习领域中,当要分类的数据集类别分布差别较大时,就称为不平衡 数据分类。它是目前在机器学习和数据挖掘领域里一个研究热点。不平衡分类问 题在现实生活中经常出现,而传统的分类器在解决这类问题时,会出现性能大幅 下降的情况。从本世纪初开始,国内外学者对不平衡分类问题进行了深入的研究, 并发表了众多相关的研究成果。不过对该问题还是存在许多可以研究的方面。 在本文中,首先介绍了在数据分布不平衡场景下,分类的一些特性,简单地 回顾了数据分布不平衡在机器学习及现实应用中所造成的一系列问题,介绍国内 外学者对该问题的研究现状。深入地讨论数据的内在特征,在数据不平衡分类时 引起的一系列问题。这些内在特征包括:小析取项问题;训练集密度不足问题; 类别覆盖问题;噪音数据;数据分布偏移问题,同时给出了对应的处理方法和建 议。总结目前解决数据分布不平衡分类问题的主要方法,特别地,将介绍数据预 处理,代价敏感学习和集成技术三种方法。 接着深入的介绍用来衡量不平衡分类性能的指标,探讨不同应用场景下,需 要使用的合适指标。特别地,将分析ROC曲线下面积(AuC),单独做为度量分 类器性能标准的不足之处:ROC只能衡量模型对样本排序的好坏,为取得好的分 类结果,还需找到一个合适的划分阈值。最后提出了一个用来寻找最优分类阈值 的框架:根据类别的错分代价是否相同,分别选取了F值和整体错分代价作为分 类结果的衡量指标。先寻找训练集的最优分类阈值,然后用这个最优阈值去指导 测试集或未知数据集的分类。将该框架应用到蛋白质的远程同源检测问题中。实 验表明本文提出的框架能有效的工作,可以指导分类器的分类,提高分类器在查 全率、查准率和F1值等指标的表现。 关键词:不平衡分类:评估指标:分类阈值; 万方数据 ABSTRACTReSearch ABSTRACT ReSearch on imbalanced classification problem is c㈣tly a hot topic in也e field of machiIle leamiIlg a11d da_ca mining.In tlle imbalallced claSsification scenario,tlle n砌ber ofeXamples representing the claSs ofinterest is much less than that ofthe omer classes.In mally real-world印plications,imbaJaIlced classification is Ver),common, alld uSually cause a(1r锄撕c drop in traditional claSsifier’s perf.0maIlce.The claSsifier le锄ed f.rom iIllbalanced data mjght haS a great bias.From t11e begiIlIling oftllis centuⅨ more aIld more researchers begin to pay a仕ention to t11is probl锄.Many scholarS haVe conducted a discussion iIl—deptll on tllis issue,aIld published a 10t research results in this aSpect.HoweVer,也ere still exist mally aspects mat need to be taken

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档