- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
不平衡数据分类⽅法
仅个⼈学习时,阅读相关资料总结。 (可能有部分不准 )
概述
定义
数据不平衡分类是对各类别间样本的数 ⽬相差较⼤的数据集进⾏分类。例如 :⼆分类问题中,⼀个样本总数为 100,80个样本被标为类别
1,剩下的20个样本被标为类别2。类别1⽐类别2的样本总数为4:1。这是⼀个不平衡的数据集。实际⽣活中,故障检测,癌症检测,⽯油
勘探都是不平衡数据。
传统分类器对于不平衡数据的不适⽤性
传统分类⽅法有 :决策树法,朴素贝叶斯分类器,⽀持向量机,K近邻法,多层感知器等。其中,决策树法⼜称判定树,基于实例的基本分
类与回归⽅法,从⼀组⽆次序、⽆规则的事例中推理出以树为表⽰形式的分类规则,形成分类器和预测模型。主流算法有ID3算法 (选择增
益最⼤的特征与阈值进⾏分裂)、C4.5算法 (使⽤基尼指数作为分割标准,⽬的是最⼩化不纯度)、CART算法。朴素贝叶斯分类器基于贝
叶斯定理构建了概率模型来估计样本属于每个类别的后验概率,选择最⼤后验概率的类作为分类结果。适⽤于邮件分类、疾病诊断。⽀持向
量机将线性样本映射到⾼维的⾮线性空间中,有效地对原始数据集进⾏⾮线性分类。适⽤于⽂本分类、⼿写数字识别、信号处理通讯。
传统分类问题基于两种假设 :
1)各类别间数 ⽬⼤致均等
2)各种类别错分的代价相同
但不平衡数据中的少数样本发⽣的概率低于多数类样本。且代价明显⾼于多数类样本,若采⽤传统分类器的以提⾼总体分类精度为 ⽬标,容
易造成少数类的分类错误。例如,对于邮件分类,假使 100封邮件中有3封垃圾邮件,其余正常邮件,若均判别为正常邮件,分类器将全部
邮件判别为正常邮件,就有97%准 率。但⾼准 率并没有完成识别出垃圾邮件的任务。
可应⽤领域
对于⽹络⼊侵检测问题,把⼊侵⾏为误判为正常⾏为,可能出现⼀定区域的⽹络问题,更严重的情况是整个⽹络系统瘫痪。在癌症检测上,
如果把癌症病⼈误诊为正常病⼈,很有可能会错过最佳治疗时期。
在实际应⽤领域中,矿物质的勘探,信⽤卡⾮法交易,卫星雷达检测海⾯油污,它们的关注重点都是少数类,不平衡数据分类的研究更有意
义。
分类⽅法总框架
对于数据不平衡问题,已有多种技术⽤于解决此类问题。
分类技术总体框图:
分类层⾯总体框图:
数据层⾯
样本采样技术
基本思想 :通过增或减某类样本的数 ⽬,获得相对平衡的数据集。
优点 :不需要考虑后期使⽤何种算法。
缺点 :易产⽣信息冗余或缺失,分类性能下降。
样本采样技术⼤致分为三类 :⽋采样技术,过采样技术,混合采样技术。
随机采样技术
随机⽋采样 :随机删除⼀定数量或⽐例的多数类,少数类样本不处理。会导致分类信息缺失,分类性能下降。
随机过采样 :通过简单复制少数类样本,多数类不处理。仅增加了数量,没有增加样本信息,易发⽣过拟合,并且数量增加引⼊了⼀定的额
外数据,构建分类器耗时增加。
以上两种实现困难程度较⼩,分类性能有⼀定的提升空间。
⼈⼯采样技术
经典过采样⽅法
SMOTE:利⽤了样本集在属性空间的特点 :某类样本趋于出现在同类的样本的邻域区间。采⽤简单的K邻近法,选取主样本及k个邻近样
本,随机从k个临近样本选取⼀个主邻近样本,在主样本与邻近样本的连接线上,随机⽣成新样本。
优点 :保证了样本的原始分布,解决了随机过采样法过适应的问题。
缺点 :涉及⼤量近邻关系运算 ;少数类样本含有较多噪声信息时,会影响分类性能;由于每轮主样本的选取随机,当少数类样本数较少时,
可能造成各原始少数类样本被选作主样本的频次差较⼤,从⽽偏离原始的样本分布。每个样本⽣成新样本的个数随机。
改进 :Borderline-SMOTE采样法(选取起决定作⽤的处于分类边界上的样本),有效规避原始噪声在新样本集上的传播。
ADA-SYN采样法(利⽤样本密度分布信息来 定个少数样本⽤作主样本的频次)。边界区域样本作为主样本的频次较⾼,⾃适应每个少数类
样本的频次。
经典⽋采样⽅法
单边选择OSS :根据多数类样本所含信息量⼤⼩选择移除。满⾜Tomek links (两个不同的样本且互为最近邻)的样本处于边界或噪声,进
⾏剔除。使数据集达到平衡。
优点 :保留多数类中的绝⼤多数信息,进⽽保证后期分类器的训练质量。
缺点 :RUS 采样率可控,OSS不可控。
SBC采样法 :基于聚类的采样法,在多数类样本的聚集区域,保留尽可能多的多数类样本,在少数类样本的聚集区域,移除尽可能多的多数
类样本。对选择性保留每个类簇中的多数类样本。需要注意聚类算法及K值 定。
文档评论(0)