基于Bagging采样下的集成学习模型.docVIP

下载本文档

17
0
约6.15万字
约 27页
2017-12-30 发布于湖北
举报
版权申诉

基于Bagging采样下的集成学习模型.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Bagging采样下的集成学习模型

基于Bagging采样下的集成学习模型信息与计算科学14-1班摘要本文采用Bagging-并行化的个体学习器，即有放回地抽取训练样本集，每个基学习器只使用了初始训练集中约63.2%的样本，剩下的约36.8%的样本可用作验证集来对泛化性能进行包外估计（out-of-bag estimate）。采用libsvm方法得到个体学习器的泛化误差及强学习器的包外泛化误差及运行时间。得到个体学习器的准确率及强学习器的包外误差，结论个体学习器良好，强学习器较差。关键词集成学习、Bagging、泛化误差、svm支持向量机一集成学习理论 1.1 集成学习集成学习（ensemble learning）是通过构建并结合多个学习器来完成学习任务的，因此有写文章中也称其为多分类器系统（multi-classifier system）或者是委员会学习（committee-based learning）。下图是集成学习的一般结构，将一组“个体学习器”（individual learner）用一些何理的策略结合起来，这些个体学习器可以是各种弱分类器，例如决策树算法，BP神经网络等。若所有的个体学习器是同种类型的，则称这样的集成是“同质”的（homogeneous),此时的学习器也可以称作是“基学习器”（base learner）,相应的学习算法则为“基学习算法”（base learning algorithm）.若集成中的个体学习器包含不同的学习器，则称这样的集成为“异质”的（heterogenous）,此时的个体学习器则被称为是“组件学习器”（component learner）也可以被直接称为个体学习器。弱学习器：指泛化性能略优于随机猜测的学习器；例如在二分类问题中精确度略高于50%的分类器。 1.2 Bagging与随机森林学习方法本文说明采用并行化的个体学习器生成方式，和上文的Boosting串行化要求个体学习器存在强依赖关系不同的是，该生成方式是基于个体学习器应尽可能相互独立。独立的个体学习器可以得到泛化性能强的集成；当然现实中不存在绝对的独立，不过可以设法使基学习器尽可能具有较大差异。一种方法就是对训练样本进行采样，产生出若干个不同的子集，再从每个数据集子集中训练出一个基学习器。不过如果采样出的每个子集完全不同，那么每个基学习器只用到了部分训练数据，可能都无法进行有效学习。因此，考虑使用相互有交叠的采样子集。假定基学习器的计算复杂度为O(m)，则Bagging的复杂度大致为T(O(m)+O(s))，因采样与投票/平均过程的复杂度O(s)很小，且T是一个不太大的常数（训练轮数），因此，训练一个Bagging集成与直接使用基学习算法训练一个学习器的复杂度同阶，可见Bagging是一个高效的集成学习算法。与标准的AdaBoost算法只适用于二分类任务不同，Bagging能不经修改地用于多分类、回归等任务。自助采样过程还给Bagging带来一个优点：由于每个基学习器只使用了初始训练集中约63.2%的样本，剩下的约36.8%的样本可用作验证集来对泛化性能进行包外估计（out-of-bag estimate），为此需记录每个基学习器所使用的训练样本。令Dt表示ht实际使用的训练样本集，令Hoob(x)表示对样本x的包外预测，即仅考虑哪些未使用x训练的基学习器在x上的预测，有：则Bagging泛化误差的包外估值为：事实上，包外样本还有其他用途，如当基学习器是决策树时，可使用包外样本来辅助剪枝，或用于估计决策树中各结点的后验概率以辅助对零训练样本结点的处理；当基学习器是神经网络时，可使用包外样本来辅助早起停止以减小过拟合风险。从偏差-方差分解的角度看，Bagging主要关注降低方差，因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更为明显。二个体学习器 2.1 libsvm个体学习器 LIBSVM是台湾大学林智仁(Lin Chih-Jen)教授等2001年开发设计的一个简单, 易于使用和快速有效的SVM模式识别与回归的软件包, 他不但提供了编译好的可在Windows系列系统的执行文件, 还提供了源代码, 方便改进, 修改以及在其它操作系统上应用; 该软件对SVM所涉及的参数调节相对比较少, 提供了很多的默认参数, 利用这些默认参数可以解决很多问题;? 2.2.1 svmtrain的用法 svmtrain我们在前面已经接触过, 他主要实现对训练数据集的训练, 并可以获得SVM模型. 用法: svmtrain [options] training_set_file [model_file] training_set_file是要进行训练的数据集; model_file是训练结束后产生的模型文件, 文件中包括支持向量