失衡样本分类问题的自动过滤算法的研究-计算机软件与理论专业论文.docxVIP

下载本文档

1
0
约3.35万字
约 51页
2019-05-19 发布于上海
举报

失衡样本分类问题的自动过滤算法的研究-计算机软件与理论专业论文.docx

摘摘要失衡样本，即不平衡的数据集，是指在一个数据集中不同类样木的数量相差悬殊。研究表明不平衡数据集严重影响了很多传统机器学习算法的分类性能，特别是少数类的分类性能可能很差。同时，不平衡数据集还导致训练分类器的速度过慢。然而在现实世界中，许多数据集都是不平衡的，甚至不平衡的程度很严重：有些数据集中只有3‰5％的少数类样本，例如多媒体语义分类，信息检索，医疗检测等。此外，人们通常更关心数据集中的少数类样本，例如信息检索中与关键字相关的文档总是占很少数，所以人们更希望少数类有很好的分类性能。由于传统的机器学习分类算法不能满足在现实中的分类应用性能良好，因此失衡样本问题迫切需要得到解决。为了解决失衡样本所带来的以上问题，本文首先提出了过滤数据集中的样本以平衡数据集的思想。这个思想希望通过过滤失衡样本中的对分类没有帮助的多数类样木，从而拉小两类样本数量的差异，使数据集平衡并提高机器学习算法的效果。为了实现这个思想，本文又提出了一个新颖的过滤规则提取算法。该算法自动从失衡的训练集中提取规则，这些规则能有效的去除样本空间中远离分类边界的没有用的多数类，尽量保留少数类，最后使得数据集平衡。在实验中，首先提取过滤规则，之后使用提取的规则过滤失衡数据集，最后用SVM对过滤后的训练集训练分类器。此外，木文还将该思想和算法应用于自动提取新闻图片中。从实验结果可

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

失衡样本分类问题的自动过滤算法的研究-计算机软件与理论专业论文.docxVIP