山东大学机器学习课程报告-刘梦源MengyuanLIU.PDF

下载文档

96
0
约2.61千字
约 5页
2019-07-06 发布于天津
举报
版权申诉
保障服务

山东大学机器学习课程报告-刘梦源MengyuanLIU.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

山东大学机器学习课程实验报告 ——实验八：以adaboost 为例的集成学习的设计与实现姓名：刘梦源学院：计算机科学与技术学院班级：计算机14.4 学号：201400301007 一、实验目的：（1）学习集成学习的思想（2）学习 adaboost 的算法原理（3）根据已给数据集，编写代码完成 adaboost 分类器（4）体会 adaboost 集成学习的优势二、实验环境：（1）硬件环境：英特尔® 酷睿™ i7-7500U 处理器 512 GB PCIe® NVMe™ M.2 SSD 8 GB LPDDR3-1866 SDRAM （2）软件环境： Windows10 家庭版 64 位操作系统 Matlab R2016a 三、实验内容（1）Adaboost 的原理 Adaboost 算法是经过调整的 Boosting 算法，其能够对弱学习得到的弱分类器的错误进行适应性 (Adaptive)调整。上述算法中迭代了 T 次的主循环，每一次循环根据当前的权重分布对样本 x 定一个分布 P，然后对这个分布下的样本使用弱学习算法得到一个弱分类器，对于这个算法定义的弱学习算法，对所有的样本都有错误率，而这个错误率的上限并不需要事先知道，实际上。每一次迭代，都要对权重进行更新。更新的规则是：减小弱分类器分类效果较好的数据的概率，增大弱分类器分类效果较差的数据的概率。最终的分类器是个弱分类器的加权平均。（2）Adaboost 的算法笼统来看，有以下两个方面需要考虑： 1. 使用加权后选取的训练数据代替随机选取的训练样本，这样将训练的焦点集中在比较难分的训练数据样本上； 2. 将弱分类器联合起来，使用加权的投票机制代替平均投票机制。让分类效果好的弱分类器具有较大的权重，而分类效果差的分类器具有较小的权重。 (3)本次实验的设计 “半圆对拱形”的数据集过去做过，而本次实验意在探究集成学习的优势，所以我们摒弃了之前可以解决这类线性不可分的 SVM 和 BP 神经网络，因为这些分类方法单个模型就可以很好的解决这种问题，无需集成学习。相应的，线性不可分的单层感知机是无法很好的分割两类样本，所以，这就是很好的集成学习对比工具，不妨用单层感知机的线性分类器充当我们的弱分类器。所以我们训练了 5 个单层感知机，还是采取普适的梯度下降法训练每个弱分类器，不同的是，本次实验还需要考虑权重的概念，也就是说 lost 的准则函数还需要乘上数据的权重，体现到代码，也就是其中，dd 是储存数据权重的向量，具体调整权重的计算公式在上边的算法中已经给出，不必赘述。另外，需要强调的问题是，不同的弱分类器应该是串行训练的关系，而万万不可以设计成并行的，如果设计成并行训练的方式，就变成了我们的另一种集成学习方法，而失去了 adaboost 的核心思想。四、实验结果图 1 是我用梯度下降训练的 5 个单层感知机线性分类器，它们存在着不同程度的线性不可分程度。图 1 五个弱分类器分类情况图2 是最终的强分类器分类情况：图 2 强分类器分类情况左图是 matlab 的数据截图， 128 个（一共测试 1500 个）的 error_num 来自强分类器，其余来自弱分类器；0.0853 的错误率来自强分类器，其余来自弱分类器；图3 matlab 数据