什么样的客户会接受有线电视的服务(CART模型).docVIP

下载本文档

2
0
约2.79千字
约 8页
2015-07-26 发布于重庆
举报
版权申诉

什么样的客户会接受有线电视的服务(CART模型).doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

什么样的客户会接受有线电视的服务(CART模型).doc

什么样的客户会接受有线电视的服务？（CART模型）一、CART模型介绍 1.CART算法简介 CART，分类与回归树（classification and regression tree，CR树），是一种十分有效的非参数分类和回归方法，通过构建树、修剪树、评估树来构建一个二叉树。当终结点是连续变量时，该树为回归树；当终结点是分类变量，该树为分类树。如下图所示：分类树示例：回归树示例：在《用C5.0模型归纳药物的对症患者》中，C5.0模型根据能够带来最大信息增益（information gain）的变量拆分样本进行分支，这里的CART模型使用的则是杂度的损失来进行分支，即根据能够带来最大杂度损失的分支条件来拆分样本。 2.决策树构建 CART使用杂度的损失来进行分支，杂度损失的度量方法如下： Gini杂质函数：，其中p(j/t）为第j类样本在节点t处的概率，i（t）越小，代表节点中所包含的样本越集中在某一类上，该节点越纯。如果t为一个节点，e为该节点的一个分支条件，这个分支条件将节点t中的样本以pl和pr分别分到左子节点和右子节点中，则称为在分支条件e下节点的杂质损失或杂质消减。选择杂质损失最大的分支条件对样本进行拆分，拆分过程遇到如下情况之一时停止拆分：分支后的叶节点样本数小于给定的阈值。分支后的叶节点样本属于同一类。无属性向量用于分支。进行以上操作之后，最终构建树。 3.决策树修剪决策树的修剪过程采用代价复杂度最小原则（MCC），它基于以下两个事实：（1）节点多的复杂决策树对训练样本有很高的分类精度，但应用于新的测试样本时，分类精度并不高；（2）理解和解释具有大量叶节点的决策树是一个复杂的过程。因此，决策树的复杂度可以用叶节点的数目来衡量，而决策树德代价以分类精度来衡量，一个好的决策树分类模型应该在复杂度与代价之间进行权衡。树的代价复杂度用下面公式来测度：表示树T的代价复杂度，R(T)表示T的重替代评估，它是将T用于学习样本时的分类错误率，表示T的叶节点数，为复杂度参数，它定义为每增加一个叶节点所提高的代价复杂度。越大，复杂度因素对考察决策树的代价复杂度时的影响也越大。时，表示不考虑复杂度因素对代价复杂度的影响，这时算法倾向于选择叶节点最多的决策树（因为它对训练样本的分类错误率最低）；当足够大时，重替代评估的影响可以忽略，算法倾向于选择只有一个叶节点的决策树。因此修剪决策树的思想为：任给T中的节点t，当t节点的代价复杂度小于以t为根的树中所有叶节点的复杂度之和，则剪掉以t为根的树，否则保留。当时（为修剪掉子树的节点t的代价复杂度，表示t的子树的代价复杂度），则表明与t有相同的代价复杂度，此时t比更可取（节点小）。修剪的具体步骤如下：对于已经构建的树T，对于任给t属于T，为t的子树，令：满足，那么则将T中剪掉，得到，在中应用同样方法得到…..如此循环，在评估时可以确定最优的一棵。另外，还要确定内节点变成叶节点的这些节点所属类，使用最小误分代价期望来划分，对于节点t中每一个类i，误分代价期望为：,为将类j分为类i的代价，最后将最小误分代价期望的类i指定为节点t的类。 4.决策树评估决策树的评估是指利用测试样本数据对已建好的子树进行选择，在树修剪选出平均误分代价最小的一棵子树，主要方法是测试样本评估和交叉验证评估。（1）测试样本评估设L2为测试样本集，样本数为N，其中j类事件数为Nj，j类事件被分为i类的个数为Nij，测试样本通过树T分类后平均误分代价为：选择平均误分代价最小的一个作为最后的决策树。为误分代价。（2）交叉验证评估它将整个训练集分成N个相等的子集，创建N棵测试决策树，每次建树选择一个子集作为测试集，其他N-1个子集为训练集，这样，训练集中N个子集都参与了测试，平均误分类率是N次测试中所有误分类数与训练集样本总数的比值。二、案例分析 1. 案例说明某电视公司有442位客户的资料，文件名为newchan.sav记录了每位客户的性别、受教育年限、年龄、家庭孩子数等个人信息，以及是否预订某种新的有限电视服务。现在依据这些数据建立决策树，识别哪些客户会接受这项电视服务。软件采用Spss Clementine。 2. 构建树模型设置SPSS源节点，将文件Newchan读入此节点。附加一个类型节点，将Newchan设置为标志，方向设置为输出；其他所有变量均作为输入。类型节点后面附加CRT节点，节点设置如下：（1）模型选项卡上选择“启用交互会话”，该选项允许模型生成之前生成并编辑决策树。（2）专家选项卡上选择“修剪树”，并勾选“使用标准误准则”，将最小杂质改变设置为0.003，这样可以避免改进意义十分微小的分支。（3）单击“停止”，设置停止构建树的阈值。这里使用绝对值