- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树算法学习笔记
1、决策树算法学习笔记
/s/blog_8095e51d01013chj.html
今天学习了决策树算法中的ID3、c4.5、CART算法,记录如下:
决策树算法:顾名思义,以二分类问题为例,即利用自变量构造一颗二叉树,将目
标变量区分出来,所有决策树算法的关键点如下:
1.分裂属性的选择。即选择哪个自变量作为树叉,也就是在n个自变量中,优先选
择哪个自变量进行分叉。而采用何种计算方式选择树叉,决定了决策树算法的类型,即ID3、
c4.5、CART三种决策树算法选择树叉的方式是不一样的,后文详细描述。
2.树剪枝。即在构建树叉时,由于数据中的噪声和离群点,许多分支反映的是训练
数据中的异常,而树剪枝则是处理这种过分拟合的数据问题,常用的剪枝方法为先剪枝和后
剪枝。后文详细描述。
为了描述方便,本文采用评价电信服务保障中的满意度预警专题来解释决策树算法,
即假如我家办了电信的宽带,有一天宽带不能上网了,于是我打电话给电信报修,然后电信
派相关人员进行维修,修好以后电信的回访专员询问我对这次修理障碍的过程是否满意,我
会给我对这次修理障碍给出相应评价,满意或者不满意。根据历史数据可以建立满意度预警
模型,建模的目的就是为了预测哪些用户会给出不满意的评价。目标变量为二分类变量:满
意 (记为0)和不满意 (记为1)。自变量为根据修理障碍过程产生的数据,如障碍类型、
障碍原因、修障总时长、最近一个月发生故障的次数、最近一个月不满意次数等等。简单的
数据如下:
客户ID 故障原因 故障类型 修障时长 满意度
001 1 5 10.2 1
002 1 5 12 0
003 1 5 14 1
004 2 5 16 0
005 2 5 18 1
006 2 6 20 0
007 3 6 22 1
008 3 6 23 0
009 3 6 24 1
010 3 6 25 0
故障原因和故障类型都为离散型变量,数字代表原因ID和类型ID。修障时长为连续型变量,
单位为小时。满意度中1为不满意、0为满意。
下面沿着分裂属性的选择和树剪枝两条主线,去描述三种决策树算法构造满意度预
警模型:
分裂属性的选择:即该选择故障原因、故障类型、修障时长三个变量中的哪个作为
决策树的第一个分支。
ID3算法是采用信息增益来选择树叉,c4.5算法采用增益率,CART算法采用Gini指标。此
外离散型变量和连续型变量在计算信息增益、增益率、Gini指标时会有些区别。详细描述
如下:
1.ID3算法的信息增益:
信息增益的思想来源于信息论的香农定理,ID3算法选择具有最高信息增益的自
变量作为当前的树叉 (树的分支),以满意度预警模型为例,模型有三个自变量:故障原因、
故障类型、修障时长。分别计算三个自变量的信息增益,选取其中最大的信息增益作为树叉。
信息增益 原信息需求-要按某个自变量划分所需要的信息。
如以自变量故障原因举例,故障原因的信息增益 原信息需求 (即仅仅基于满意度类别比例
的信息需求,记为a)-按照故障原因划分所需要的信息需求 (记为a1)。
其中原信息需求a的计算方式为:
其中D为目标变量,此例中为满意度。m 2,即满意和不满意两种情况。Pi为满意度中属于
分别属于满意和不满意的概率。此例中共计10条数据,满意5条,不满意5条。概率都为
1/2。Info (满意度)即为仅仅基于满意和满意的类别比例进行划分所需要的信息需求,计
算方式为:
按照故障原因划分所需要的信息需求 (记为a1)可以表示为:
其中A表示目标变量D (即满意度)中按自变量A划分所
您可能关注的文档
最近下载
- 箱变安装施工方案.docx VIP
- 2025年人教版初中物理八年级上册第二章《声现象》单元测试题(含答案).pdf VIP
- 2025年安全生产标准化体系二级-安全标准化管理制度(详尽版).pdf VIP
- 2011东山县科目一考试货车仿真试题.doc VIP
- 风电场35kv集电线路箱变安装施工组织设计.pdf VIP
- 2023年06月国家国防科技工业局核技术支持中心社会招考聘用笔试历年难、易错考点试题含答案解析.docx
- 2025年度地质勘探钻井服务外包合同.docx VIP
- 2023年新疆职业大学招聘笔试真题带答案详解.docx VIP
- 2023风电场35kv集电线路箱变安装施工方案.docx VIP
- 沪粤版九年级上册 第十三章《探究简单电路》单元测试卷.doc VIP
文档评论(0)