- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯
科技论文
AdaBoost算法中的数据类别不平衡现象
李建彬 郑辉 牛忠霞
摘要:分析了AdaBoost算法可能面临的数据类别不平衡现象,指出通过限制重抽样
比例来防止不平衡的不良影响的方式是不可取的,本文提出了基于分类错误率最小
化准则与GMA最大化准则相配合的方法,有效地防止了不平衡现象对集成分类器性
能的不良影响,并得到实验验证。
关键词:AdaBoostStumps不平衡 GMA
1引言
机器学习是研究如何使机器从过去已有的现象中学习做出准确预测的自动技术。虽
然直接建立高度准确的预测规则很困难,但是,要寻找一些优于随机猜测的经验规则却
很容易。
AdaBoost算法是当前流行的一种机器学习算法,AdaBoost算法的思想就是要把一系
列略优于随机猜测的经验规则增强为高度准确的预测规则。为了应用AdaBoost方法,我
们首先需要寻找获得这些粗略的经验规则的方法或者算法。AdaBoost算法称这些为 “弱”
或者 基“”学习算法,在研究分类问题时,统称这些算法为弱分类器。AdaBoost~每一轮
训练的过程中都把训练实例的一个不同的子集输入其中,用以训练学习出若干个弱分类
器,并从中选择最优的一个作为本轮训练所得的弱假设。这样循环训练许多轮以后,
AdaBoost算法就把这些弱假设组合成一个单一的预测规则,该规则很可能比任何一个弱
规则要准确得多。AdaBoost算法是学习系统设计思想的一个转变:不是试图设计一个在
整个空间都精确的学习算法,而是集中于寻找仅比随机预测好的弱学习算法。
在本文中,我们将探i,-,JAdaBoost算法中的数据类别不平衡现象。需要说明的是,本
文既不是要研究专门针对不平衡问题的分类算法,也不是要研究数据类别极端不平衡的
情况。我们研究的目的,是希望使在常规应用环境下使用的AdaBoost算法对不平衡问题
具有较强的鲁棒性。原因是,在实际应用中,常常无需或者无法知道待分类的数据是否
具有类别不平衡问题或者到底有多么不平衡。
2AdaBoost算法中的数据类别不平衡现象
在常规情况下,AdaBoost算法中的数据类别不平衡现象表现为两种形式:一是初始
训练集数据类别的不平衡,即训练集中某类数据的数 目明显多于另外一类,另外一种表
现形式是由于~AdaBoost的训练过程中出现样本权重分布的扭曲而导致重抽样的结果出
现了数据类别的不平衡现象。
第一种不平衡现象是数据的自然属性。在现实工作中,由于不同类型的数据的采集
条件和采集难度不同,以及某些由于数据特性的不同,采集到的数据本身具有类别数 目
的不平衡问题,即训练集中某类数据的数 目明显多于另外一类。这样,在构造训练集的
维普资讯
电信技术研究 2007年第 11期
时候,就可能继承了数据本身的这种不平衡特性。但,我们必须清楚,在进一步分析之
前,由于缺乏对数据的了解,此时的不平衡与分类困难与否并没有必然的联系。文章[4]
指出,只有在多数类的样本过多地侵入到少数类的样本空间的情况下,不平衡才会恶化
学习器的性能。需要进一步研究的是,对于这一情况,我们是否有简便的方法来快速判
断呢?
AdaBoost算法中的数据类别不平衡的另一种表现就是在AdaBoost~)l[练过程中由于样
本权重分布的扭曲而使集成分类器的整体性能退化的现象,这种现象反映了数据类别之
间的联系,反应了数据的类别特性。随~AdaBoost算法研究的广泛开展,J.R.Quinlan对
Boosting和Bagging两种集成机器学习算法进行了实验比较[3】。实验的前端弱学习算法采
用C4.5算法,Boosting算法采用的是针对多类分类的AdaBoost.M1。Quinlan在实验中共采
用了27个数据集,AdaBoost.M1在其中23个数据集上对C4.5产生陛能增强效果。在另外4
个数据集上,发生退化现象,~pAdaBoost降低了C4。5的预测准确率。发生退化的四个数
文档评论(0)