不平衡数据分类方法.pdfVIP

下载本文档

11
0
约6.1千字
约 8页
2022-11-26 发布于湖北
举报
版权申诉

不平衡数据分类方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

不平衡数据分类⽅法仅个⼈学习时，阅读相关资料总结。（可能有部分不准）概述定义数据不平衡分类是对各类别间样本的数⽬相差较⼤的数据集进⾏分类。例如：⼆分类问题中，⼀个样本总数为 100，80个样本被标为类别 1，剩下的20个样本被标为类别2。类别1⽐类别2的样本总数为4:1。这是⼀个不平衡的数据集。实际⽣活中，故障检测，癌症检测，⽯油勘探都是不平衡数据。传统分类器对于不平衡数据的不适⽤性传统分类⽅法有：决策树法，朴素贝叶斯分类器，⽀持向量机，K近邻法，多层感知器等。其中，决策树法⼜称判定树，基于实例的基本分类与回归⽅法，从⼀组⽆次序、⽆规则的事例中推理出以树为表⽰形式的分类规则，形成分类器和预测模型。主流算法有ID3算法（选择增益最⼤的特征与阈值进⾏分裂）、C4.5算法（使⽤基尼指数作为分割标准，⽬的是最⼩化不纯度）、CART算法。朴素贝叶斯分类器基于贝叶斯定理构建了概率模型来估计样本属于每个类别的后验概率，选择最⼤后验概率的类作为分类结果。适⽤于邮件分类、疾病诊断。⽀持向量机将线性样本映射到⾼维的⾮线性空间中，有效地对原始数据集进⾏⾮线性分类。适⽤于⽂本分类、⼿写数字识别、信号处理通讯。传统分类问题基于两种假设： 1）各类别间数⽬⼤致均等 2）各种类别错分的代价相同但不平衡数据中的少数样本发⽣的概率低于多数类样本。且代价明显⾼于多数类样本，若采⽤传统分类器的以提⾼总体分类精度为⽬标，容易造成少数类的分类错误。例如，对于邮件分类，假使 100封邮件中有3封垃圾邮件，其余正常邮件，若均判别为正常邮件，分类器将全部邮件判别为正常邮件，就有97%准率。但⾼准率并没有完成识别出垃圾邮件的任务。可应⽤领域对于⽹络⼊侵检测问题，把⼊侵⾏为误判为正常⾏为，可能出现⼀定区域的⽹络问题，更严重的情况是整个⽹络系统瘫痪。在癌症检测上，如果把癌症病⼈误诊为正常病⼈，很有可能会错过最佳治疗时期。在实际应⽤领域中，矿物质的勘探，信⽤卡⾮法交易，卫星雷达检测海⾯油污，它们的关注重点都是少数类，不平衡数据分类的研究更有意义。分类⽅法总框架对于数据不平衡问题，已有多种技术⽤于解决此类问题。分类技术总体框图：分类层⾯总体框图：数据层⾯样本采样技术基本思想：通过增或减某类样本的数⽬，获得相对平衡的数据集。优点：不需要考虑后期使⽤何种算法。缺点：易产⽣信息冗余或缺失，分类性能下降。样本采样技术⼤致分为三类：⽋采样技术，过采样技术，混合采样技术。随机采样技术随机⽋采样：随机删除⼀定数量或⽐例的多数类，少数类样本不处理。会导致分类信息缺失，分类性能下降。随机过采样：通过简单复制少数类样本，多数类不处理。仅增加了数量，没有增加样本信息，易发⽣过拟合，并且数量增加引⼊了⼀定的额外数据，构建分类器耗时增加。以上两种实现困难程度较⼩，分类性能有⼀定的提升空间。⼈⼯采样技术经典过采样⽅法 SMOTE：利⽤了样本集在属性空间的特点：某类样本趋于出现在同类的样本的邻域区间。采⽤简单的K邻近法，选取主样本及k个邻近样本，随机从k个临近样本选取⼀个主邻近样本，在主样本与邻近样本的连接线上，随机⽣成新样本。优点：保证了样本的原始分布，解决了随机过采样法过适应的问题。缺点：涉及⼤量近邻关系运算；少数类样本含有较多噪声信息时，会影响分类性能；由于每轮主样本的选取随机，当少数类样本数较少时，可能造成各原始少数类样本被选作主样本的频次差较⼤，从⽽偏离原始的样本分布。每个样本⽣成新样本的个数随机。改进：Borderline-SMOTE采样法(选取起决定作⽤的处于分类边界上的样本)，有效规避原始噪声在新样本集上的传播。 ADA-SYN采样法(利⽤样本密度分布信息来定个少数样本⽤作主样本的频次)。边界区域样本作为主样本的频次较⾼，⾃适应每个少数类样本的频次。经典⽋采样⽅法单边选择OSS ：根据多数类样本所含信息量⼤⼩选择移除。满⾜Tomek links （两个不同的样本且互为最近邻）的样本处于边界或噪声，进⾏剔除。使数据集达到平衡。优点：保留多数类中的绝⼤多数信息，进⽽保证后期分类器的训练质量。缺点：RUS 采样率可控，OSS不可控。 SBC采样法：基于聚类的采样法，在多数类样本的聚集区域，保留尽可能多的多数类样本，在少数类样本的聚集区域，移除尽可能多的多数类样本。对选择性保留每个类簇中的多数类样本。需要注意聚类算法及K值定。