第八章：集成学习报告.pptxVIP

下载本文档

53
0
约5.1千字
约 36页
2017-06-08 发布于湖北
举报
版权申诉

第八章：集成学习报告.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第八章：集成学习报告

集成学习朱辉星 2016年11月 8.1(1)个体与集成集成学习（ensemble learning）：通过构建并结合多个学习器来完成学习任务。（也被成为：多分类器系统、基于委员会的学习）一般结构：先产生一组“个体学习器”（individual learner），再用某种策略将他们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生 C4.5决策树算法、BP神经网络算法 8.1（2） 8.1(3) 集成学习优点：通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能。这对“弱学习器”（weak learner）尤为明显，因此集成学习的很多理论研究都是针对弱学习器进行的，而基学习器有时也被直接成为弱学习器虽然从理论上来说使用弱学习器集成足以获得好的性能，但在实践中出于种种考虑，希望使用较少的个体学习器，人们常常会使用比较强的学习器。如何能获得比最好的单一学习器更好的性能呢？ 8.1（4）在二分类任务中：三个分类器在三个测试样本上的表现如下: 分类器测试例1 测试例2 测试例3 h1 √ √ × h2 × √ √ h3 √ × √ 集成 √ √ √ 分类器测试例1 测试例2 测试例3 h1 √ √ × h2 √ √ × h3 √ √ × 集成 √ √ × 分类器测试例1 测试例2 测试例3 h1 √ × × h2 × √ × h3 × × √ 集成 × × × a.集成提升性能 b.集成不起作用 c.集成起负作用集成学习的结果通过投票法产生 8.1（5） a.每个分类器都只有66.6%的精度，但集成学习却达到了100%； b.三个分类器没有差别，集成后性能没有提高； c.每个分类器精度只有33.3%，集成学习结果变得更糟；以上例子显示要获得好的集成，个体学习器应“好而不同”，即个体学习器要有一定的“准确性”，即学习器不能太坏，并且要有“多样性”。即学习器间具有差异性。个体学习器至少不差于弱学习器 8.1（6）考虑二分类问题：和真实函数，假定基分类器的错误率为，即对每个基分类器有假设集成通过简单投票法集合T个基分类器，若超过半数的基分类器正确，则集成分类就正确 ⑴ ⑵ 8.1（7）假设基分类器的错误率相互独立，则由Hoeffding不等式可知，集成的错误率为 ⑶ 上式显示出：随着集成中个体分类器数目T的增大，集成的错误率将指数级下降，最终趋向于零。 8.1（8）然而我们必须注意到，上面的分析有一个关键假设：及学习器的误差相互独立。在现实任务中，个体学习器是为解决同一个问题训练出来的，他们显然不可能相互独立。事实上，个体学习器的“准确性”和“多样性”本身就存在冲突。一般的，准确性提高之后，要增加多样性就需牺牲正确性。 8.1（9）根据个体学习器的生成方式，集成学习方法可分为两大类： ①个体学习器间存在强依赖关系、必须串行生成的序列化方法 ②个体学习器间不存在强依赖关系、可同时生成的并行化方法代表：Boosting 代表：Bagging和 “随机森林” （Random forest） 8.2(1)Boosting(助推、推进) Boosting是一族可将弱学习器提升为强学习器的算法，这族算法的工作机制：如此重复进行，直至基学习器数目达到事先指定的值T，最终将这T个基学习器进行加权结合。 8.2（2）adaboost Boosting族算法最著名的代表：AdaBoost 其中是真实函数基于“加性模型”，即基学习器的线性组合来最小化指数损失函数（exponential loss function） ⑷ ⑸ 8.2(3) 若H(x)能令指数函数最小化，则考虑（5）式对H(x)的偏导令(6)式为零可解得： ⑹ ⑺ 8.2（4）因此，有 ⑻ 8.2（5）这意味着sign(H(x))达到了贝叶斯最优错误率。换言之，若指数损失函数最小化，则分类错误率也将最小化. 在Adaboost算法中，第一个基分类器h1是通过直接将基学习算法用于初始数据分布而得；此后迭代地生成和，当基分类器基于分布产生后，该分类器的权重应使得最小化指数损失函数： 8.2（6）其中： ⑼ 8.2（7）考虑指数损失函数的倒数：令(10)为零可解得：这恰是（Ⅰ）中算法分类器权重更新公式。 ⑽ ⑾ 8.2（8） AdaBoost算法在获得之后样本分布将进行调整，使下一轮的基学习器能纠正的一些错误。理想的能纠正的全部错误，即最小化 ⑿ 8.2（9）