决策树算法学习笔记.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树算法学习笔记

1、决策树算法学习笔记 /s/blog_8095e51d01013chj.html 今天学习了决策树算法中的ID3、c4.5、CART算法,记录如下: 决策树算法:顾名思义,以二分类问题为例,即利用自变量构造一颗二叉树,将目 标变量区分出来,所有决策树算法的关键点如下: 1.分裂属性的选择。即选择哪个自变量作为树叉,也就是在n个自变量中,优先选 择哪个自变量进行分叉。而采用何种计算方式选择树叉,决定了决策树算法的类型,即ID3、 c4.5、CART三种决策树算法选择树叉的方式是不一样的,后文详细描述。 2.树剪枝。即在构建树叉时,由于数据中的噪声和离群点,许多分支反映的是训练 数据中的异常,而树剪枝则是处理这种过分拟合的数据问题,常用的剪枝方法为先剪枝和后 剪枝。后文详细描述。 为了描述方便,本文采用评价电信服务保障中的满意度预警专题来解释决策树算法, 即假如我家办了电信的宽带,有一天宽带不能上网了,于是我打电话给电信报修,然后电信 派相关人员进行维修,修好以后电信的回访专员询问我对这次修理障碍的过程是否满意,我 会给我对这次修理障碍给出相应评价,满意或者不满意。根据历史数据可以建立满意度预警 模型,建模的目的就是为了预测哪些用户会给出不满意的评价。目标变量为二分类变量:满 意 (记为0)和不满意 (记为1)。自变量为根据修理障碍过程产生的数据,如障碍类型、 障碍原因、修障总时长、最近一个月发生故障的次数、最近一个月不满意次数等等。简单的 数据如下: 客户ID 故障原因 故障类型 修障时长 满意度 001 1 5 10.2 1 002 1 5 12 0 003 1 5 14 1 004 2 5 16 0 005 2 5 18 1 006 2 6 20 0 007 3 6 22 1 008 3 6 23 0 009 3 6 24 1 010 3 6 25 0 故障原因和故障类型都为离散型变量,数字代表原因ID和类型ID。修障时长为连续型变量, 单位为小时。满意度中1为不满意、0为满意。 下面沿着分裂属性的选择和树剪枝两条主线,去描述三种决策树算法构造满意度预 警模型: 分裂属性的选择:即该选择故障原因、故障类型、修障时长三个变量中的哪个作为 决策树的第一个分支。 ID3算法是采用信息增益来选择树叉,c4.5算法采用增益率,CART算法采用Gini指标。此 外离散型变量和连续型变量在计算信息增益、增益率、Gini指标时会有些区别。详细描述 如下: 1.ID3算法的信息增益: 信息增益的思想来源于信息论的香农定理,ID3算法选择具有最高信息增益的自 变量作为当前的树叉 (树的分支),以满意度预警模型为例,模型有三个自变量:故障原因、 故障类型、修障时长。分别计算三个自变量的信息增益,选取其中最大的信息增益作为树叉。 信息增益 原信息需求-要按某个自变量划分所需要的信息。 如以自变量故障原因举例,故障原因的信息增益 原信息需求 (即仅仅基于满意度类别比例 的信息需求,记为a)-按照故障原因划分所需要的信息需求 (记为a1)。 其中原信息需求a的计算方式为: 其中D为目标变量,此例中为满意度。m 2,即满意和不满意两种情况。Pi为满意度中属于 分别属于满意和不满意的概率。此例中共计10条数据,满意5条,不满意5条。概率都为 1/2。Info (满意度)即为仅仅基于满意和满意的类别比例进行划分所需要的信息需求,计 算方式为: 按照故障原因划分所需要的信息需求 (记为a1)可以表示为: 其中A表示目标变量D (即满意度)中按自变量A划分所

文档评论(0)

sunshaoying + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档