什么样的客户会接受有线电视的服务(CART模型).docVIP

什么样的客户会接受有线电视的服务(CART模型).doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
什么样的客户会接受有线电视的服务(CART模型).doc

什么样的客户会接受有线电视的服务?(CART模型) 一、CART模型介绍 1.CART算法简介 CART,分类与回归树(classification and regression tree,CR树),是一种十分有效的非参数分类和回归方法,通过构建树、修剪树、评估树来构建一个二叉树。当终结点是连续变量时,该树为回归树;当终结点是分类变量,该树为分类树。如下图所示: 分类树示例: 回归树示例: 在《用C5.0模型归纳药物的对症患者》中,C5.0模型根据能够带来最大信息增益(information gain)的变量拆分样本进行分支,这里的CART模型使用的则是杂度的损失来进行分支,即根据能够带来最大杂度损失的分支条件来拆分样本。 2.决策树构建 CART使用杂度的损失来进行分支,杂度损失的度量方法如下: Gini杂质函数: ,其中p(j/t)为第j类样本在节点t处的概率,i(t)越小,代表节点中所包含的样本越集中在某一类上,该节点越纯。 如果t为一个节点,e为该节点的一个分支条件,这个分支条件将节点t中的样本以pl和pr分别分到左子节点和右子节点中,则称为在分支条件e下节点的杂质损失或杂质消减。 选择杂质损失最大的分支条件对样本进行拆分,拆分过程遇到如下情况之一时停止拆分: 分支后的叶节点样本数小于给定的阈值。 分支后的叶节点样本属于同一类。 无属性向量用于分支。 进行以上操作之后,最终构建树。 3.决策树修剪 决策树的修剪过程采用代价复杂度最小原则(MCC),它基于以下两个事实:(1)节点多的复杂决策树对训练样本有很高的分类精度,但应用于新的测试样本时,分类精度并不高;(2)理解和解释具有大量叶节点的决策树是一个复杂的过程。因此,决策树的复杂度可以用叶节点的数目来衡量,而决策树德代价以分类精度来衡量,一个好的决策树分类模型应该在复杂度与代价之间进行权衡。树的代价复杂度用下面公式来测度: 表示树T的代价复杂度,R(T)表示T的重替代评估,它是将T用于学习样本时的分类错误率,表示T的叶节点数,为复杂度参数,它定义为每增加一个叶节点所提高的代价复杂度。越大,复杂度因素对考察决策树的代价复杂度时的影响也越大。时,表示不考虑复杂度因素对代价复杂度的影响,这时算法倾向于选择叶节点最多的决策树(因为它对训练样本的分类错误率最低);当足够大时,重替代评估的影响可以忽略,算法倾向于选择只有一个叶节点的决策树。 因此修剪决策树的思想为:任给T中的节点t,当t节点的代价复杂度小于以t为根的树中所有叶节点的复杂度之和,则剪掉以t为根的树,否则保留。当时(为修剪掉子树的节点t的代价复杂度,表示t的子树的代价复杂度),则表明与t有相同的代价复杂度,此时t比更可取(节点小)。 修剪的具体步骤如下: 对于已经构建的树T,对于任给t属于T,为t的子树,令: 满足,那么则将T中剪掉,得到,在中应用同样方法得到…..如此循环,在评估时可以确定最优的一棵。 另外,还要确定内节点变成叶节点的这些节点所属类,使用最小误分代价期望来划分,对于节点t中每一个类i,误分代价期望为:,为将类j分为类i的代价,最后将最小误分代价期望的类i指定为节点t的类。 4.决策树评估 决策树的评估是指利用测试样本数据对已建好的子树进行选择,在树修剪选出平均误分代价最小的一棵子树,主要方法是测试样本评估和交叉验证评估。 (1)测试样本评估 设L2为测试样本集,样本数为N,其中j类事件数为Nj,j类事件被分为i类的个数为Nij,测试样本通过树T分类后平均误分代价为: 选择平均误分代价最小的一个作为最后的决策树。为误分代价。 (2)交叉验证评估 它将整个训练集分成N个相等的子集,创建N棵测试决策树,每次建树选择一个子集作为测试集,其他N-1个子集为训练集,这样,训练集中N个子集都参与了测试,平均误分类率是N次测试中所有误分类数与训练集样本总数的比值。 二、案例分析 1. 案例说明 某电视公司有442位客户的资料,文件名为newchan.sav记录了每位客户的性别、受教育年限、年龄、家庭孩子数等个人信息,以及是否预订某种新的有限电视服务。现在依据这些数据建立决策树,识别哪些客户会接受这项电视服务。软件采用Spss Clementine。 2. 构建树模型 设置SPSS源节点,将文件Newchan读入此节点。附加一个类型节点,将Newchan设置为标志,方向设置为输出;其他所有变量均作为输入。类型节点后面附加CRT节点,节点设置如下: (1)模型选项卡上选择“启用交互会话”,该选项允许模型生成之前生成并编辑决策树。 (2)专家选项卡上选择“修剪树”,并勾选“使用标准误准则”, 将最小杂质改变设置为0.003,这样可以避免改进意义十分微小的分支。 (3)单击“停止”,设置停止构建树的阈值。这里使用绝对值

文档评论(0)

docinpfd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档