网站大量收购独家精品文档,联系QQ:2885784924

《金融大数据分析》-课件 第9章 集成学习.pptx

《金融大数据分析》-课件 第9章 集成学习.pptx

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第9章集成学习金融大数据学习

学习目标了解集成学习方法的概念,以及该类方法的作用掌握如何使用自助法生成独立样本理解袋装法,随机森林,以及提升法的使用方法理解这类学习方法的训练过程掌握如何使用程序实现集成学习

集成学习简介集成学习可以将众多模型的预测进行综合以达到减少过拟合问题的目的。集成学习(以提升法为代表),可以将许多弱模型结合起来以达到提高模型表现的作用。该类模型可以有效解决欠拟合问题。集成学习不限于决策树,但是在决策树这一类模型中有着最广泛的应用。包括三大类方法:1.袋装法2.随机森林3.提升法

自助法如果我们原样本中有??个数据点,那么我们每次随机生成的样本是从原样本中也随机抽取??个数据点而得到的。随机生成新样本的过程中,我们对原样本进行??次抽取,每次抽取一个数据点。因此,原样本的某些数据点可能会在新样本中出现多次。但是有些数据点可能根本不会出现。因此,我们??个随机生成的样本都有??个数据点,但是跟原样本都会有所不同。

袋装法袋装法(bagging)是一种基于自助法(bootstrap)的集成学习方法。该方法可叠加于用于各种机器学习模型之上(比如线性回归,逻辑回归等)。用B个随机生成的样本来训练决策树。得到B个决策树模型。用回归树来预测连续变量,可以直接对这B个模型取平均数。

误差估计袋装法的误差估计在每个自助法得到的随机样本中,我们平均用到原数据中2/3的数据点。因此,平均每个随机样本会有1/3的原数据没有被用到。这些没有被用于训练的数据点被称为袋外数据(比如随机样本1)中,数据4为袋外数据。

误差估计接下来,我们在每个随机样本中训练模型,并用该模型来预测袋外数据。我们通过对每个随机样本中对其袋外数据进行预测,这样平均原数据中的每个数据点都会得到大约??/3个模型的预测。最后,我们综合这??/3个模型的预测(通过对于回归树取平均值或对于分类树采用模型投票),可以对模型预测的准确性进行判断。这种方法相较于交叉验证法的优势是计算成本较低。

随机森林简介随机森林是对袋装法的一种改进方法。袋装法是通过自助法生成不同的随机样本,并在随机样本上训练决策树。随机森林则是在每次对树进行分裂的过程中,只选取一部分特征来进行分裂。一般来说,我们在每次分裂过程中,在总共??个特征中,随机选取??个特征,并使用这k个特征对树进行分裂。

随机森林简介这在随机森林模型,我们要求????。所以有些特征并不会被用到。通常来说,我们随机选取特征的数量??约等于所有特征数据的平方根。因此,我们每一步对树的分裂操作都只能用到一小部分特征。

随机森林简介随机森林相较于袋装法的优势在于该方法可以让每次生成的决策树更加多样,因而使他们的预测也更加多样。这样的多样性有助于减小模型预测的方差。??越小,那么我们生成的决策树就会更加多样。如果??=??,那么随机森林就等同于袋装法。

随机森林训练步骤我们将重复??次如下操作,在第??次循环中,我们进行:1.从原始数据集??中随机采样一个自助数据集????2.使用????构建决策树????,具体步骤如下:(a)对于树的每一个节点,随机选择??个特征(b)使用所选特征基于某一度量(例如,基尼系数,交叉熵)来确定最佳分割点(c)使用最佳分割点来分割节点(d)递归地重复以上步骤来构建完整的树

提升法类似于袋装法,提升法(Boosting)同样可以叠加使用与不同的监督学习模型之上。提升法对决策树模型的表现可以带来显著的提升。

提升法与袋装法不同之处是袋装法每次都在随机样本上生成一个独立的决策树,而提升法中每次生成的新的决策树都是基于之前决策树的表现。提升法主要解决的问题不是过拟合而是欠拟合。滥用提升法有可能会造成模型的过拟合。

提升法执行步骤1.我们首先将作如下初始化:(a)残差??(??)∶=??(??)。在开始模型训练之前,残差等于目标变量本来的值(b)初始假设函数??(??)=02.对以下步骤进行??次循环,在第??步,我们进行如下工作(a)用特征??与残差??来训练决策树模型,得到??(??)(b)将假设函数进行如下更新:??(??)∶=??(??)+????(??)(??)(c)将残差进行如下更新:??(??)∶=??(??)?????(??)(??(??)))

提升法特点首先,提升法不需要生成随机样本。第二,除了第一次生成的决策树,之后每次生成的决策树都不是对原数据或随机样本数据的拟合,而是对原数据与模型拟合的残差进行拟合。也就是说,每次循环中,我们都试图找到一个新的决策树可以减小之前模型预测与实际数据的距离。

提升法特点在提升法中,有个重要的

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档