- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第八章:集成学习报告
集成学习
朱辉星
2016年11月
8.1(1)个体与集成
集成学习(ensemble learning):通过构建并结合多个学习器来完成学习任务。
(也被成为:多分类器系统、基于委员会的学习)
一般结构:先产生一组“个体学习器”(individual learner),再用某种策略将他们结合起来。
个体学习器通常由一个现有的学习算法从训练数据产生
C4.5决策树算法、BP神经网络算法
8.1(2)
8.1(3)
集成学习优点:通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能。
这对“弱学习器”(weak learner)尤为明显,因此集成学习的很多理论研究都是针对弱学习器进行的,而基学习器有时也被直接成为弱学习器
虽然从理论上来说使用弱学习器集成足以获得好的性能,但在实践中出于种种考虑,希望使用较少的个体学习器,人们常常会使用比较强的学习器。
如何能获得比最好的单一学习器更好的性能呢?
8.1(4)
在二分类任务中:三个分类器在三个测试样本上的表现如下:
分类器
测试例1
测试例2
测试例3
h1
√
√
×
h2
×
√
√
h3
√
×
√
集成
√
√
√
分类器
测试例1
测试例2
测试例3
h1
√
√
×
h2
√
√
×
h3
√
√
×
集成
√
√
×
分类器
测试例1
测试例2
测试例3
h1
√
×
×
h2
×
√
×
h3
×
×
√
集成
×
×
×
a.集成提升性能
b.集成不起作用
c.集成起负作用
集成学习的结果通过投票法产生
8.1(5)
a.每个分类器都只有66.6%的精度,但集成学习却达到了100%;
b.三个分类器没有差别,集成后性能没有提高;
c.每个分类器精度只有33.3%,集成学习结果变得更糟;
以上例子显示
要获得好的集成,个体学习器应“好而不同”,即个体学习器要有一定的“准确性”,即学习器不能太坏,并且要有“多样性”。即学习器间具有差异性。
个体学习器至少
不差于弱学习器
8.1(6)
考虑二分类问题: 和真实函数 ,假定基分类器的错误率为 ,即对每个基分类器
有
假设集成通过简单投票法集合T个基分类器,若超过半数的基分类器正确,则集成分类就正确
⑴
⑵
8.1(7)
假设基分类器的错误率相互独立,则由Hoeffding不等式可知,集成的错误率为
⑶
上式显示出:随着集成中个体分类器数目T的增大,集成的错误率将指数级下降,
最终趋向于零。
8.1(8)
然而我们必须注意到,上面的分析有一个关键假设:及学习器的误差相互独立。在现实任务中,个体学习器是为解决同一个问题训练出来的,他们显然不可能相互独立。
事实上,个体学习器的“准确性”和“多样性”本身就存在冲突。一般的,准确性提高之后,要增加多样性就需牺牲正确性。
8.1(9)
根据个体学习器的生成方式,集成学习方法可分为两大类:
①个体学习器间存在强依赖关系、必须串行生成的序列化方法
②个体学习器间不存在强依赖关系、可同时生成的并行化方法
代表:Boosting
代表:Bagging和
“随机森林”
(Random forest)
8.2(1)Boosting(助推、推进)
Boosting是一族可将弱学习器提升为强学习器的算法,这族算法的工作机制:
如此重复进行,直至基学习器数目达到事先指定的值T,
最终将这T个基学习器进行加权结合。
8.2(2)adaboost
Boosting族算法最著名的代表:AdaBoost
其中 是真实函数
基于“加性模型”,即基学习器的线性组合
来最小化指数损失函数(exponential loss function)
⑷
⑸
8.2(3)
若H(x)能令指数函数最小化,则考虑(5)式对H(x)的偏导
令(6)式为零可解得:
⑹
⑺
8.2(4)
因此,有
⑻
8.2(5)
这意味着sign(H(x))达到了贝叶斯最优错误率。换言之,若指数损失函数最小化,则分类错误率也将最小化.
在Adaboost算法中,第一个基分类器h1是通过直接将基学习算法用于初始数据分布而得;此后迭代地生成 和 ,当基分类器 基于分布 产生后,该分类器的权重 应使得 最小化指数损失函数:
8.2(6)
其中:
⑼
8.2(7)
考虑指数损失函数的倒数:
令(10)为零可解得:
这恰是(Ⅰ)中算法分类器权重更新公式。
⑽
⑾
8.2(8)
AdaBoost算法在获得 之后样本分布将进行调整,使下一轮的基学习器 能纠正 的一些错误。理想的 能纠正 的全部错误,即最小化
⑿
8.2(9)
文档评论(0)