- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
不平衡数据集的混合采样方法
摘要:不平衡数据集中,由于某类别数量的不平衡,使得类别数量少的容易被误分,导致其分类准确率不高。处理不平衡?稻菁?的方法,可以分为算法方面和数据方面,在数据方面中,主要分为两种方法:过采样和欠采样,但是对于将这两种方法结合的研究不是很多,过采样和欠采样都具有一定的优势,因此设想将这两种方法结合起来,希望可以找到更好的方法。提出两种混合采样方法:Random-SMOTE+ENN和Random-SMOTE+TNS,并与几种典型的抽样方法在数据集上进行实验对比,实验结果表明提出的两种方法是可行有效的。
关键词:不平衡数据集 过采样 欠采样
中图分类号:TP181 文献标识码:A 文章编号:1007-9416(2016)12-0068-04
引言
不平衡数据集[1-2]是指在一个数据集中,有些类别的样本数量很多,有些类别的样本数量很少,这就形成了数据集各类别样本的不均衡,一般称样本数量少的一类为少数类,有时也可称为正类,样本数量多的一类为多数类,有时也称为负类[3]。在许多不平衡数据集的实际分类中,样本数量少的一类往往对分类来说更重要。在现实生活中,存在着许多数据不平衡的例子,如医疗诊断[4],垃圾信息的识别,客户信誉识别[5]。例如在医疗诊断中,一个没有病的人被医生诊断为有病,这会使人承受精神的压力,然而假如医生把一个有病的患者诊断为没有病可能就会耽误治疗,有可能会危及病人的生命。正如这些实例,少类数据所拥有的信息往往是所需要的,因此怎样能在分类过程中正确识别这些数据是应该关注和解决的问题。
目前,已经有很多这方面的处理方法[6]可以从两方面考虑:算法方面和数据处理方面。算法方面就是不断完善已有的算法和提出新的分类算法[7],如代价敏感学习、Bagging算法[8]等。数据方面的方法有两种[9]:过采样方法和欠采样方法[10-11]。常用的采样方法是随机过采样、随机欠采样、Tomeklinks[12]、压缩最近邻(CNN)[13]、邻域清理(NCL)[14]、(Synthetic Minority Over-Sampling Techique)SMOTE[15]、Borderline-Smote(BSM)[16]、one-sided selection(OSS)[17]等,还有一些组合算法,如Gustavo[18]等人提出的SMOTE+ENN和SMOTE+Tomeklink。
文中主要研究了过采样和欠采样相结合的方法,分别将过采样方法Random-SMOTE和欠采样ENN方法、(Total under sampling)TNS方法结合,即Random-SMOTE+ENN方法和Random-SMOTE+TNS方法。将过采样和欠采样这两种方法相结合是因为在样本数较少的数据集,这两种方法都有不足,过采样或欠采样的效果不好,过采样会使样本数据集的少数类过拟合,而欠采样方法会丢许多样本的信息,组合方法能够有效的解决这两种问题,其次,已经有人研究过将这两种采样方法结合,实验结果表现出良好的效果,最后,这几种方法在单独执行时就表现出了较好的效果,所以将这两种采样方法组合起来,希望会使不平衡数据集的分类效果好。
在预处理阶段采用了6种采样方法,其中包括文章提出的两种对不平衡数据预处理的方法,在选取的9种不同程度数据集上进行预处理及分类实验,最后给出6种采样方法预处理后的分类结果以及实验结论。
1 相关介绍
目前,在已有的处理不平衡数据分类问题的数据处理方法有两方面,一方面是过采样方法,另一方面欠采样方法。随机过采样是对少数类样本进行复制,这会引起样本数据的重叠和过拟合现象,而随机欠采样方法,是随机的删除一些多数类的数据,使各类别的样本数量平衡,然而这会使一些重要样本数据信息丢失,会影响分类时的判断。2002年Chawla N V等人提出了一种启发式方法:(Synthetic Minority Over-Sampling Techique)SMOTE,这种方法与随机过采样方法不同,人为的在同类近邻样本间线性插值来生成新的样本,有效的解决了数据重叠现象。针对SMOTE方法的提出,研究者们对SMOTE进行了许多的改进工作,取得了非常好的效果。
下面介绍几种采样方法:
1.1 SMOTE
SMOTE方法的基本思路是在近邻少数类样本之间进行线性插值,合成新的少数类样本。具体方案是:对数据集中少数类的每一个样本寻找其(通常取5)个同类最近邻样本,根据采样倍率,在其个同类最近邻样本中随机选择个同类样本,记作,在少数类样本,之间连线上进行随机线性插值,生成少数类样本。
其中 是(0,1)内一个随机数,表示为新的生成的样本。
1.2 (edited
文档评论(0)