- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
什么样的客户会接受有线电视的服务(CART模型).doc
什么样的客户会接受有线电视的服务?(CART模型)
一、CART模型介绍
1.CART算法简介
CART,分类与回归树(classification and regression tree,CR树),是一种十分有效的非参数分类和回归方法,通过构建树、修剪树、评估树来构建一个二叉树。当终结点是连续变量时,该树为回归树;当终结点是分类变量,该树为分类树。如下图所示:
分类树示例:
回归树示例:
在《用C5.0模型归纳药物的对症患者》中,C5.0模型根据能够带来最大信息增益(information gain)的变量拆分样本进行分支,这里的CART模型使用的则是杂度的损失来进行分支,即根据能够带来最大杂度损失的分支条件来拆分样本。
2.决策树构建
CART使用杂度的损失来进行分支,杂度损失的度量方法如下:
Gini杂质函数: ,其中p(j/t)为第j类样本在节点t处的概率,i(t)越小,代表节点中所包含的样本越集中在某一类上,该节点越纯。
如果t为一个节点,e为该节点的一个分支条件,这个分支条件将节点t中的样本以pl和pr分别分到左子节点和右子节点中,则称为在分支条件e下节点的杂质损失或杂质消减。
选择杂质损失最大的分支条件对样本进行拆分,拆分过程遇到如下情况之一时停止拆分:
分支后的叶节点样本数小于给定的阈值。
分支后的叶节点样本属于同一类。
无属性向量用于分支。
进行以上操作之后,最终构建树。
3.决策树修剪
决策树的修剪过程采用代价复杂度最小原则(MCC),它基于以下两个事实:(1)节点多的复杂决策树对训练样本有很高的分类精度,但应用于新的测试样本时,分类精度并不高;(2)理解和解释具有大量叶节点的决策树是一个复杂的过程。因此,决策树的复杂度可以用叶节点的数目来衡量,而决策树德代价以分类精度来衡量,一个好的决策树分类模型应该在复杂度与代价之间进行权衡。树的代价复杂度用下面公式来测度:
表示树T的代价复杂度,R(T)表示T的重替代评估,它是将T用于学习样本时的分类错误率,表示T的叶节点数,为复杂度参数,它定义为每增加一个叶节点所提高的代价复杂度。越大,复杂度因素对考察决策树的代价复杂度时的影响也越大。时,表示不考虑复杂度因素对代价复杂度的影响,这时算法倾向于选择叶节点最多的决策树(因为它对训练样本的分类错误率最低);当足够大时,重替代评估的影响可以忽略,算法倾向于选择只有一个叶节点的决策树。
因此修剪决策树的思想为:任给T中的节点t,当t节点的代价复杂度小于以t为根的树中所有叶节点的复杂度之和,则剪掉以t为根的树,否则保留。当时(为修剪掉子树的节点t的代价复杂度,表示t的子树的代价复杂度),则表明与t有相同的代价复杂度,此时t比更可取(节点小)。
修剪的具体步骤如下:
对于已经构建的树T,对于任给t属于T,为t的子树,令:
满足,那么则将T中剪掉,得到,在中应用同样方法得到…..如此循环,在评估时可以确定最优的一棵。
另外,还要确定内节点变成叶节点的这些节点所属类,使用最小误分代价期望来划分,对于节点t中每一个类i,误分代价期望为:,为将类j分为类i的代价,最后将最小误分代价期望的类i指定为节点t的类。
4.决策树评估
决策树的评估是指利用测试样本数据对已建好的子树进行选择,在树修剪选出平均误分代价最小的一棵子树,主要方法是测试样本评估和交叉验证评估。
(1)测试样本评估
设L2为测试样本集,样本数为N,其中j类事件数为Nj,j类事件被分为i类的个数为Nij,测试样本通过树T分类后平均误分代价为:
选择平均误分代价最小的一个作为最后的决策树。为误分代价。
(2)交叉验证评估
它将整个训练集分成N个相等的子集,创建N棵测试决策树,每次建树选择一个子集作为测试集,其他N-1个子集为训练集,这样,训练集中N个子集都参与了测试,平均误分类率是N次测试中所有误分类数与训练集样本总数的比值。
二、案例分析
1. 案例说明
某电视公司有442位客户的资料,文件名为newchan.sav记录了每位客户的性别、受教育年限、年龄、家庭孩子数等个人信息,以及是否预订某种新的有限电视服务。现在依据这些数据建立决策树,识别哪些客户会接受这项电视服务。软件采用Spss Clementine。
2. 构建树模型
设置SPSS源节点,将文件Newchan读入此节点。附加一个类型节点,将Newchan设置为标志,方向设置为输出;其他所有变量均作为输入。类型节点后面附加CRT节点,节点设置如下:
(1)模型选项卡上选择“启用交互会话”,该选项允许模型生成之前生成并编辑决策树。
(2)专家选项卡上选择“修剪树”,并勾选“使用标准误准则”, 将最小杂质改变设置为0.003,这样可以避免改进意义十分微小的分支。
(3)单击“停止”,设置停止构建树的阈值。这里使用绝对值
您可能关注的文档
最近下载
- 三年级新教科版科学《水沸腾了》说课稿.pdf VIP
- 2019一级造价工程师《建设工程技术与计量(水利工程)》真题带答案与解析.doc VIP
- 学会与父母沟通kt_,.ppt VIP
- 脑出血的分子生物学机制.pptx VIP
- 电除颤操作流程-电除颤操作流程.ppt VIP
- 医疗器械委托生产生产放行和上市放行管理制度.docx VIP
- 紫日电气ZVF9V变频器使用手册.docx
- 物流行业深度研究报告:大物流时代系列研究(三),公路港到网络货运平台,传化与满帮为例,探讨我国公路整车物流最优解(202108).pdf VIP
- 新教材 人教A版高中数学选择性必修第一册全册各章节 知识点考点汇总及解题方法提炼.pdf VIP
- 工业机器人及其应用 第三章 工业机器人的末端执行器.ppt VIP
文档评论(0)