山东大学机器学习课程报告-刘梦源MengyuanLIU.PDF

山东大学机器学习课程报告-刘梦源MengyuanLIU.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
山东大学机器学习课程 实验报告 ——实验八 :以adaboost 为例的集成学习的设计与实现 姓名:刘梦源 学院:计算机科学与技术学院 班级:计算机14.4 学号:201400301007 一、实验目的: (1)学习集成学习的思想 (2)学习 adaboost 的算法原理 (3)根据已给数据集,编写代码完成 adaboost 分类器 (4)体会 adaboost 集成学习的优势 二、实验环境: (1)硬件环境: 英特尔® 酷睿™ i7-7500U 处理器 512 GB PCIe® NVMe™ M.2 SSD 8 GB LPDDR3-1866 SDRAM (2)软件环境: Windows10 家庭版 64 位操作系统 Matlab R2016a 三、实验内容 (1)Adaboost 的原理 Adaboost 算法是经过调整的 Boosting 算法,其能够对弱学习得到的弱分 类器的错误进行适应性 (Adaptive)调整。上述算法中迭代了 T 次的主循环,每 一次循环根据当前的权重分布对样本 x 定一个分布 P,然后对这个分布下的样 本使用弱学习算法得到一个弱分类器,对于这个算法定义的弱学习算法,对所 有的样本都有错误率,而这个错误率的上限并不需要事先知道,实际上。每一 次迭代,都要对权重进行更新。更新的规则是:减小弱分类器分类效果较好的 数据的概率,增大弱分类器分类效果较差的数据的概率。最终的分类器是个弱 分类器的加权平均。 (2)Adaboost 的算法 笼统来看,有以下两个方面需要考虑: 1. 使用加权后选取的训练数据代替随机选取的训练样本,这样将训练的焦点 集中在比较难分的训练数据样本上; 2. 将弱分类器联合起来,使用加权的投票机制代替平均投票机制。让分类效 果好的弱分类器具有较大的权重,而分类效果差的分类器具有较小的权重。 (3)本次实验的设计 “半圆对拱形”的数据集过去做过,而本次实验意在探究集成学习的优势, 所以我们摒弃了之前可以解决这类线性不可分的 SVM 和 BP 神经网络,因为这些 分类方法单个模型就可以很好的解决这种问题,无需集成学习。 相应的,线性不可分的单层感知机是无法很好的分割两类样本,所以,这 就是很好的集成学习对比工具,不妨用单层感知机的线性分类器充当我们的弱 分类器。 所以我们训练了 5 个单层感知机,还是采取普适的梯度下降法训练每个弱分 类器,不同的是,本次实验还需要考虑权重的概念,也就是说 lost 的准则函数 还需要乘上数据的权重,体现到代码,也就是 其中,dd 是储存数据权重的向量,具体调整权重的计算公式在上边的算法 中已经给出,不必赘述。 另外,需要强调的问题是,不同的弱分类器应该是串行训练的关系,而万 万不可以设计成并行的,如果设计成并行训练的方式,就变成了我们的另一种 集成学习方法,而失去了 adaboost 的核心思想。 四、实验结果 图 1 是我用梯度下降训练的 5 个单层感知机线性分类器,它们存在着不同程度 的线性不可分程度。 图 1 五个弱分类器分类情况 图2 是最终的强分类器分类情况: 图 2 强分类器分类情况 左图是 matlab 的数据截图, 128 个(一共测试 1500 个)的 error_num 来自强分类器,其余来自 弱分类器;0.0853 的错误率来自强 分类器,其余来自弱分类器; 图3 matlab 数据

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档