失衡样本分类问的自动过滤算法的研究.pdfVIP

下载本文档

10
0
约 51页
2016-01-08 发布于四川
举报
版权申诉

失衡样本分类问的自动过滤算法的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

失衡样本分类问的自动过滤算法的研究

摘要失衡样本，即不平衡的数据集，是指在一个数据集中不同类样木的数量相差悬殊。研究表明不平衡数据集严重影响了很多传统机器学习算法的分类性能，特别是少数类的分类性能可能很差。同时，不平衡数据集还导致训练分类器的速度过慢。然而在现实世界中，许多数据集都是不平衡的，甚至不平衡的程度很严重：有些数据集中只有3‰5％的少数类样本，例如多媒体语义分类，信息检索，医疗检测等。此外，人们通常更关心数据集中的少数类样本，例如信息检索中与关键字相关的文档总是占很少数，所以人们更希望少数类有很好的分类性能。由于传统的机器学习分类算法不能满足在现实中的分类应用性能良好，因此失衡样本问题迫切需要得到解决。为了解决失衡样本所带来的以上问题，本文首先提出了过滤数据集中的样本以平衡数据集的思想。这个思想希望通过过滤失衡样本中的对分类没有帮助的多数类样木，从而拉小两类样本数量的差异，使数据集平衡并提高机器学习算法的效果。为了实现这个思想，本文又提出了一个新颖的过滤规则提取算法。该算法自动从失衡的训练集中提取规则，这些规则能有效的去除样本空间中远离分类边界的没有用的多数类，尽量保留少数类，最后使得数据集平衡。在实验中，首先提取过滤规则，之后使用提取的规则过滤失衡数据集，最后用SVM对过滤后的训练集训练分类器。此外，木文还将该思想和算法应用于自动提取新闻图片中。从实验结果可以看出： 1)木文提出的过滤样木平衡数据集的方法是可行的、有效的。 2)自动规则提取算法提取出的规则能有效的过滤失衡样本中无用的多数类，几乎不过滤少数类，最后达到平衡数据集的效果 3)不平衡数据集使用规则过滤后，再使用SVM进行分类，能提高其分类性能，同时明显降低训练分类器的时间。 4)实验还证明了使用规则过滤后分类数据集比代价敏感学习方法无论在分类性能还是在洲练时间上都更具优越性。 5)最后，实验显示，本文提出的过滤规则提取算法能在自动提取新闻图片的应用中使用并得到好的性能。关键字：机器学习，分类，失衡样本，SVM ABSTRACT Imbalanceddatasetsmeansthat thenumbersof from different samples categories differ．Theimbalanceddata largely sethasbeen tohinder reported theclassification of performancemany tothe class． machine—learning algorithms，especiallyminority Ontheother hand，theimbalanceddataalso reduce the data． significantlytraining thereal However,In imbalanceddata world，extremely sets(3-5％positivesamples) are commonfor as many multimediasemanticclassi