AdaBoost算法中的数据类别不平衡现象.pdfVIP

下载本文档

23
0
约1.42万字
约 8页
2017-08-30 发布于河北
举报
版权申诉

AdaBoost算法中的数据类别不平衡现象.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

维普资讯科技论文 AdaBoost算法中的数据类别不平衡现象李建彬郑辉牛忠霞摘要：分析了AdaBoost算法可能面临的数据类别不平衡现象，指出通过限制重抽样比例来防止不平衡的不良影响的方式是不可取的，本文提出了基于分类错误率最小化准则与GMA最大化准则相配合的方法，有效地防止了不平衡现象对集成分类器性能的不良影响，并得到实验验证。关键词：AdaBoostStumps不平衡 GMA 1引言机器学习是研究如何使机器从过去已有的现象中学习做出准确预测的自动技术。虽然直接建立高度准确的预测规则很困难，但是，要寻找一些优于随机猜测的经验规则却很容易。 AdaBoost算法是当前流行的一种机器学习算法，AdaBoost算法的思想就是要把一系列略优于随机猜测的经验规则增强为高度准确的预测规则。为了应用AdaBoost方法，我们首先需要寻找获得这些粗略的经验规则的方法或者算法。AdaBoost算法称这些为 “弱” 或者基“”学习算法，在研究分类问题时，统称这些算法为弱分类器。AdaBoost~每一轮训练的过程中都把训练实例的一个不同的子集输入其中，用以训练学习出若干个弱分类器，并从中选择最优的一个作为本轮训练所得的弱假设。这样循环训练许多轮以后， AdaBoost算法就把这些弱假设组合成一个单一的预测规则，该规则很可能比任何一个弱规则要准确得多。AdaBoost算法是学习系统设计思想的一个转变：不是试图设计一个在整个空间都精确的学习算法，而是集中于寻找仅比随机预测好的弱学习算法。在本文中，我们将探i,-,JAdaBoost算法中的数据类别不平衡现象。需要说明的是，本文既不是要研究专门针对不平衡问题的分类算法，也不是要研究数据类别极端不平衡的情况。我们研究的目的，是希望使在常规应用环境下使用的AdaBoost算法对不平衡问题具有较强的鲁棒性。原因是，在实际应用中，常常无需或者无法知道待分类的数据是否具有类别不平衡问题或者到底有多么不平衡。 2AdaBoost算法中的数据类别不平衡现象在常规情况下，AdaBoost算法中的数据类别不平衡现象表现为两种形式：一是初始训练集数据类别的不平衡，即训练集中某类数据的数目明显多于另外一类，另外一种表现形式是由于~AdaBoost的训练过程中出现样本权重分布的扭曲而导致重抽样的结果出现了数据类别的不平衡现象。第一种不平衡现象是数据的自然属性。在现实工作中，由于不同类型的数据的采集条件和采集难度不同，以及某些由于数据特性的不同，采集到的数据本身具有类别数目的不平衡问题，即训练集中某类数据的数目明显多于另外一类。这样，在构造训练集的维普资讯电信技术研究 2007年第 11期时候，就可能继承了数据本身的这种不平衡特性。但，我们必须清楚，在进一步分析之前，由于缺乏对数据的了解，此时的不平衡与分类困难与否并没有必然的联系。文章[4] 指出，只有在多数类的样本过多地侵入到少数类的样本空间的情况下，不平衡才会恶化学习器的性能。需要进一步研究的是，对于这一情况，我们是否有简便的方法来快速判断呢? AdaBoost算法中的数据类别不平衡的另一种表现就是在AdaBoost~)l[练过程中由于样本权重分布的扭曲而使集成分类器的整体性能退化的现象，这种现象反映了数据类别之间的联系，反应了数据的类别特性。随~AdaBoost算法研究的广泛开展，J．R．Quinlan对 Boosting和Bagging两种集成机器学习算法进行了实验比较[3】。实验的前端弱学习算法采用C4．5算法，Boosting算法采用的是针对多类分类的AdaBoost．M1。Quinlan在实验中共采用了27个数据集，AdaBoost．M1在其中23个数据集上对C4．5产生陛能增强效果。在另外4 个数据集上，发生退化现象，~pAdaBoost降低了C4。5的预测准确率。发生退化的四个数