大数据财务分析——基于Python(张敏)12.决策树模型 + 财务舞弊模型搭建.pptxVIP

大数据财务分析——基于Python(张敏)12.决策树模型 + 财务舞弊模型搭建.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
;;12.1.1 决策树模型简介 决策树模型是机器学习各种算法模型中比较好理解的一个模型,它的基本原理便是通过对一系列问题进行if/else的推导,最终实现相关决策。 下图12-1所示为一个典型的决策树模型:员工离职预测模型的简单演示。该决策树首先判断员工满意度是否小于5,答案为“是”则认为该员工会离职,答案为“否”则接着判断其收入是否小于10,000元,答案为“是”则认为该员工会离职,答案为“否”则认为该员工不会离职。;12.1.2 决策树模型的建树依据 决策树模型的建树依据主要用到的是基尼系数的概念。基尼系数(gini)用于计算一个系统中的失序现象,也即系统的混乱程度。基尼系数越高,系统混乱程度越高,建立决策树模型的目的就是降低系统的混乱程度,从而到达合适的数据分类效果,基尼系数的计算公式如下:;例如,一个初始样本中有1000个员工,其中已知有400人离职,600人不离职。其划分前该系统的基尼系数为 ,那么下面采用两种不同的划分方式来决定初始节点:1、根据“满意度5”进行分类;2、根据“收入10,000”进行分类。 划分方式1:以“满意度5”为初始节点进行划分,划分后的基尼系数为0.3,如下图 划分方式2:以“收入10,000”为初始节点进行划分,划分后的基尼系数为0.45,如下图;可以看到未划分时的基尼系数为0.48,以“满意度5”为初始节点进行划分后的基尼系数为0.3,而以“收入10,000”为初始节点进行划分后的基尼系数为0.45。基尼系数越低表示系统的混乱程度越低,区分度越高,能够比较好地作为一个分类预测模型,因此这里选择“满意度5”作为初始节点。这里演示了如何选择初始节点,初始节点下面的节点也是用类似的方法来进行选择。;其中X表示的是随机变量,随机变量的取值为(X1, X2, X3……),在n分类问题中,便有n个取值,例如在员工离职预测模型案例中,X的取值就是两种:“离职”与“不离职”;pi表示随机变量X取值为Xi发生的概率,且有∑pi = 1。此外注意这里的对数函数是以2为底即是 。 同样举例来说,对于一个全部都是离职员工的样本来说,里面只有一个类别:离职员??,其出现的频率是100%,所以该系统信息熵为 ,表示该系统没有混乱。而如果样本里一半是离职员工,另一半是未离职员工,那么类别个数为2,每个类别出现的频率都为50%,所以其信息熵为 ,也即其混乱程度很高。 当引入某个用于进行分类的变量(比如“满意度5”),则根据变量A划分后的信息熵也被称之为条件熵,其公式为: 其中S1、S2为划分成两类的样本量,H(X1)和H(X2)为划分后的两类各自的信息熵。 与之前计算基尼系数减少值类似,这里同样是计算信息熵的减少值(原系统熵值 - 划分后的系统熵值),该减少值称之为熵增益或信息增益,其值越大越好,越大表明在进行分类后的混乱程度越低,也即分类越准确。信息增益的计算公式如下所示: ;以之前的例子来解释信息熵的概念与使用,初始样本中有1000个员工,其中已知有400人离职,600人不离职。其划分前该系统的信息熵为 ,可见混乱程度较高,下面采用两种不同的划分方式来决定初始节点:1、根据“曾经离职”进行分类;2、根据“收入10,000”进行分类。 方式1:以“满意度5”为初始节点进行划分,如下图所示,划分后的信息熵为0.65,熵增益或者说信息增益为0.32。 方式2:以“收入10,000”为初始节点进行划分,如下图12-5所示,划分后的基尼系数为0.96,熵增益或者说信息增益为0.046。 ;根据方式1划分后的信息增益为0.32,大于根据方式2划分后的信息增益0.046,因此我们选择根据方式1来进行决策树的划分,这样能更好的降低系统的混乱程度,从而进行更加合理的分类。这个和之前用基尼系数来计算的最终结论都是一样的。 在决策树模型搭建中,因为基尼系数涉及是平方运算,而信息熵涉及的则是复杂的一点的log对数函数运算,因此目前决策树模型默认使用基尼系数来进行运算,这样运算速度会较快。 商业实战中的数据量通常很大,再计算不同情况下的基尼系数或者信息熵就不是人力所能完成的,这时候就需要利用机器不停地训练来找到最佳的分裂节点,而在Python中,则有相应的Scikit-Learn库来帮助快速建立一个决策树模型,如果是通过第1章所讲的通过Anaconda安装的Python,那么这个库已经自动安装好了,下面我们就来讲解一下决策树模型的简单代码实现。 ;12.1.3 决策树模型的代码实现 决策树模型既可以做分类分析(即预测分类变量值),也可以做回归分析(即预测连续变量值),分别对应的模型为分类决策树模型(DecisionTreeClassifier)及回归决策树模型(DecisionTreeRegressor) 1.分类决策树模型

文档评论(0)

1243595614 + 关注
实名认证
文档贡献者

文档有任何问题,请私信留言,会第一时间解决。

版权声明书
用户编号:7043023136000000

1亿VIP精品文档

相关文档