原理+代码｜深入浅出Python随机森林预测实战.docxVIP

下载本文档

22
0
约6.52千字
约 15页
2021-11-16 发布于湖南
举报
版权申诉

原理+代码｜深入浅出Python随机森林预测实战.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

原理+代码｜深化浅出Python随机森林猜测实战组合算法也叫集成学习，在金融行业或非图像识别领域，效果有时甚至比深度学习还要好。能够理解基本原理并将代码用于实际的业务案例是本文的目标，本文将具体引见如何利用Python实现集成学习中随机森林这个经典的方法来猜测宽带客户的流失，次要将分为两个部分：具体原理引见 Python代码实战集成学习本文的配角是随机森林，所以我们将以随机森林所属的分支 —— 装袋法入手，深化浅出该集成学习方法的原理步骤。装袋法流程如下乍一看图中的步骤可能有些简单，现在来逐渐拆解。装袋法中的装袋二字是精髓，顾名思义即将多个模型装入同一个袋子后，让这个袋子作为一个新的模型来实现猜测需求，仅此而已。换句话说，即把多个模型组合起来构成一个新的大模型，这个大模型最终给出的猜测结果是由这多个小模型综合打算的，打算方式为少数听从多数。假设有10万条原始数据，用这些数据来做十棵决策树（当然也可以是其他模型），最终这10棵树将被装进了同一个袋子中。这时候取其中一条数据放入这个袋子，便会得出10个猜测值(每棵树各一个)，假如其中三棵树给出的猜测值为0，剩余的七棵给出的为1，那我们便可晓得这个袋子对这个数据的猜测结果为 0 的概率是 3/10。为了更深化的理解装袋法，下面将回答三个与装袋法有关的常见问题：问：袋子中的每个模型使用的样本量范围应为多少合适？答：假如是上面的例子，袋子里面有十棵树，源数据总量为 10万条，则每棵树取用的样本量的最小值为最少是1w个(10w/10棵 = 1w/棵)，由于至少要保证不能铺张样本，但每棵树最多可取用多少样本呢？其实在样本量已知，同一袋子中模型个数为n的情况下，样本的选择比例为1/n ~ 0.8最好。每个小模型取用 100% 的样本是确定没有意义的，那就跟没抽是一样的，这样也就没有体现出装袋，只要每个模型用到的数据都有肯定的不同，组合起来后每个的投票（猜测结果）也才有意义。问：袋中模型们之间的相关性会影响最终的决策结果吗？答：装袋法思路最重要的一点：袋子中每个模型之间不能相关，越不相关越好，这里的不相关次要体现在用于训练每个模型的样本不一样。其次，每个模型的精度越高越好，这样它的投票才更有价值。 PS：训练模型的样本不一样这一点可以理解为总统选举，抽 10 波选民来投票，这 10 波选民的差异性越大越好，这样一来，只要在选民千差万别的情况下你照旧脱颖而出，才足以说明你的实力，假如这10波选民中每一波之间的差异性都很小，比如都是原来就偏袒于总统候选人，那投票结果的说服力就会大减。问：上面所说的模型精度高是不是哪怕模型很简单也可以，假如每个模型的精度高但都过度拟合怎样办？答：在装袋法中，模型是越精确越好，哪怕是过度拟合的也没有关系。由于一个模型要想在训练集上做到越精确越好，而精确程度与模型的简单度大多是成反比的，所以消灭过拟合的情况也是正常且情有可原的。简单和过度拟合只是对袋子中每个模型而言，由于最终都会被加权，所以整个袋子（全体）并不会消灭过度拟合的情况。随机森林随机森林的实现步骤如下：有关随机森林算法，本文说明以下几个问题问：为什么在列上也要随机抽样？答：在引入笔者最最宠爱的一个比方之前，先来看一个实际的业务场景，来自某城市商业银行。我们有一大个电子表格存着大量的历史数据，或许50多个变量(50多列)，变量们来自几个不同的公司如人行，电信等(同一个客户在不同公司)，最终期望猜测的是该客户能否会违约。电子表格组成如下：而依据基础的业务学问可知，与银行有关的数据中往往会存在很多缺失值，以上图为例，通常情况下只要待猜测的变量这一列的数据是齐全的，到底客户们能否违约这个行为的历史数据很简约查找，但蓝框和绿框这两部分的缺失值往往较多，而且较任凭，具体任凭程度参见下图：红框表示数据缺失，这里只呈现了部分行和部分列数据，假如这份数据表的规模为 4万行 * 50列，那这数据缺失的分布得有多任凭啊 ??？？所以，到底该如何充分利用这残次不齐的数据就成了呈待处理的关键问题。这时候就可以祭出超级生动笼统的 “岛屿 - 湖泊 - 椰子树”比方了：整个表格看成一座巨大的岛屿，岛屿的长和宽分别对应电子表格横轴长和纵轴的长度表中缺失的数据段看成一个个分布任凭的小湖泊，有数据的地方看成陆地整个小岛地底埋藏着巨大的价值（数据价值），通过在任凭的种树（用装袋法外行列上进行随机抽样）来吸取地底的养分，到底湖泊上种不了树，所以只需足够随机，就总能充分的利用陆地。正由于是行列都随机，才能够做到真正的把整个数据表随机切分成多份，每个模型使用一份，只需模型的数量足够，总有模型能够在最大程度上猎取数据集的价值。而且因变量的分类往往又是极不平衡的，可以参考原理+代码｜手把手教你使用