大数据财务分析——基于Python（张敏）12.决策树模型 + 财务舞弊模型搭建.pptxVIP

下载本文档

59
0
约2.29万字
约 74页
2023-03-17 发布于浙江
举报
版权申诉

大数据财务分析——基于Python（张敏）12.决策树模型 + 财务舞弊模型搭建.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

;;12.1.1 决策树模型简介决策树模型是机器学习各种算法模型中比较好理解的一个模型，它的基本原理便是通过对一系列问题进行if/else的推导，最终实现相关决策。下图12-1所示为一个典型的决策树模型：员工离职预测模型的简单演示。该决策树首先判断员工满意度是否小于5，答案为“是”则认为该员工会离职，答案为“否”则接着判断其收入是否小于10,000元，答案为“是”则认为该员工会离职，答案为“否”则认为该员工不会离职。;12.1.2 决策树模型的建树依据决策树模型的建树依据主要用到的是基尼系数的概念。基尼系数(gini)用于计算一个系统中的失序现象，也即系统的混乱程度。基尼系数越高，系统混乱程度越高，建立决策树模型的目的就是降低系统的混乱程度，从而到达合适的数据分类效果，基尼系数的计算公式如下：;例如，一个初始样本中有1000个员工，其中已知有400人离职，600人不离职。其划分前该系统的基尼系数为，那么下面采用两种不同的划分方式来决定初始节点：1、根据“满意度5”进行分类；2、根据“收入10,000”进行分类。划分方式1：以“满意度5”为初始节点进行划分，划分后的基尼系数为0.3，如下图划分方式2：以“收入10,000”为初始节点进行划分，划分后的基尼系数为0.45，如下图;可以看到未划分时的基尼系数为0.48，以“满意度5”为初始节点进行划分后的基尼系数为0.3，而以“收入10,000”为初始节点进行划分后的基尼系数为0.45。基尼系数越低表示系统的混乱程度越低，区分度越高，能够比较好地作为一个分类预测模型，因此这里选择“满意度5”作为初始节点。这里演示了如何选择初始节点，初始节点下面的节点也是用类似的方法来进行选择。;其中X表示的是随机变量，随机变量的取值为（X1, X2, X3……），在n分类问题中，便有n个取值，例如在员工离职预测模型案例中，X的取值就是两种：“离职”与“不离职”；pi表示随机变量X取值为Xi发生的概率，且有∑pi = 1。此外注意这里的对数函数是以2为底即是。同样举例来说，对于一个全部都是离职员工的样本来说，里面只有一个类别：离职员??，其出现的频率是100%，所以该系统信息熵为，表示该系统没有混乱。而如果样本里一半是离职员工，另一半是未离职员工，那么类别个数为2，每个类别出现的频率都为50%，所以其信息熵为，也即其混乱程度很高。当引入某个用于进行分类的变量（比如“满意度5”），则根据变量A划分后的信息熵也被称之为条件熵，其公式为：其中S1、S2为划分成两类的样本量，H(X1)和H(X2)为划分后的两类各自的信息熵。与之前计算基尼系数减少值类似，这里同样是计算信息熵的减少值（原系统熵值 - 划分后的系统熵值），该减少值称之为熵增益或信息增益，其值越大越好，越大表明在进行分类后的混乱程度越低，也即分类越准确。信息增益的计算公式如下所示： ;以之前的例子来解释信息熵的概念与使用，初始样本中有1000个员工，其中已知有400人离职，600人不离职。其划分前该系统的信息熵为，可见混乱程度较高，下面采用两种不同的划分方式来决定初始节点：1、根据“曾经离职”进行分类；2、根据“收入10,000”进行分类。方式1：以“满意度5”为初始节点进行划分，如下图所示，划分后的信息熵为0.65，熵增益或者说信息增益为0.32。方式2：以“收入10,000”为初始节点进行划分，如下图12-5所示，划分后的基尼系数为0.96，熵增益或者说信息增益为0.046。 ;根据方式1划分后的信息增益为0.32，大于根据方式2划分后的信息增益0.046，因此我们选择根据方式1来进行决策树的划分，这样能更好的降低系统的混乱程度，从而进行更加合理的分类。这个和之前用基尼系数来计算的最终结论都是一样的。在决策树模型搭建中，因为基尼系数涉及是平方运算，而信息熵涉及的则是复杂的一点的log对数函数运算，因此目前决策树模型默认使用基尼系数来进行运算，这样运算速度会较快。商业实战中的数据量通常很大，再计算不同情况下的基尼系数或者信息熵就不是人力所能完成的，这时候就需要利用机器不停地训练来找到最佳的分裂节点，而在Python中，则有相应的Scikit-Learn库来帮助快速建立一个决策树模型，如果是通过第1章所讲的通过Anaconda安装的Python，那么这个库已经自动安装好了，下面我们就来讲解一下决策树模型的简单代码实现。 ;12.1.3 决策树模型的代码实现决策树模型既可以做分类分析（即预测分类变量值），也可以做回归分析（即预测连续变量值），分别对应的模型为分类决策树模型（DecisionTreeClassifier）及回归决策树模型（DecisionTreeRegressor） 1.分类决策树模型