第八周：分类决策树CHAIDCRT——每周一讲多变量分析.docVIP

下载本文档

33
0
约 8页
2017-05-07 发布于江西
举报
版权申诉

第八周：分类决策树CHAIDCRT——每周一讲多变量分析.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第八周：分类决策树CHAID

第八周：分类决策树CHAIDCRT——每周一讲多变量分析今天我们来说说分类决策树的应用和操作！主要包括CHAIDCRT，是非常好用和有价值的多变量分析技术， CHAID——Chi-squared Automatic Interaction Detector卡方自交互侦测决策树 CRT——Classification Regression Tree分类回归树；?? ??? CHAID和CART是最有名的分类树方法，主要用于预测和分类。在市场研究中经常用于市场细分和客户促销研究，属于监督类分析技术。其中，树根节点是独立变量-因变量，例如：使用水平、购买倾向、用户或非用户、客户类型、套餐类别、细分类别等。子节点基于独立变量和其他分类变量（父节点），按照卡方显著性不断划分或组合为树状结构。预测变量一般也是非数量型的分类变量。??? CHAID最常用，但独立变量只能是分类变量，也就是离散性的，CRT可以处理数量型变量，有时候二者结合使用。CHAID和CRT都可以处理非数量型和定序性变量。?? ??? 分类树方法产生真实的细分类别，这种类是基于一个独立变量得到的一种规则和细分市场。也就是说，每一个树叶都是一个细分市场。??? 下面我们通过一个案例来操作SPSS软件的分类决策树模块??? 假设我们有一个移动业务数据，包含有客户的性别、年龄、语音费用、数据费用、客户等级、支付方式和促销套餐变量。我们现在期望能够得到针对不同的促销套餐来分析“客户画像”，这样有利于针对性的促销！也就是不同套餐客户特征描述！??? 因变量是促销套餐，其它是预测变量或自变量！??? 我们看到，首先要求我们定义变量的测量等级并定义好变量变标和值标！因为，CHAID和CRT具有智能特性，也就是自交互检验和自回归能力，所以对变量测量尺度要求严格！??? 为什么说变量测量等级重要呢？例如，我们有个变量叫学历（1-初中、2-高中、3-大专、4-本科、5-硕士以上），如果我们设定为定序变量，则决策树可以自动组合分类，但无论如何都是顺序组合，也就是说可能（1-初中、2-高中、3-大专）为一类，（4-本科、5-硕士以上）为一类，但绝对不会把1和5合并一类；如果我们定义为名义变量，则可以任意学历组合为某类了！??? ??? 基本原理：基于目标变量（独立变量）自我分层的树状结构，根结点是因变量，预测变量根据卡方显著性程度不断自动生成父节点和子节点，卡方显著性越高，越先成为预测根结点的变量，程序自动归并预测变量的不同类，使之成为卡方显著性。程序根据预先设定的树状水平数停止。最后每一个叶结点就是一个细分市场。当预测变量较多且都是分类变量时，CHAID分类最适宜。??? 预测变量大部分都是人口统计资料，使研究者很快就可以找出不同细分市场特征。传统的交互分析对多维交叉表和归并类是一项繁重的工作。??? 首先，我们确定因变量后，放入其它自变量。接下来，我们要选择CHAID的验证和条件参数！一般来讲：我们主要设定父节点和子节点的数量，以及规定树状结构的水平数，如何生长！分类树将根据设定参数决定树的增长和停止！通常，我们考察总的样本量大小，父节点是子节点的两倍，当然如果设定的太小，树会非常茂盛，得到很多非常小的细分市场，可能没有实际营销意义！树的水平数也是同样道理！其它还有很多参数可以设定，比如分割样本，错误分类成本，利润等，分类决策树可以直接输出结果和SPSS语法或SQL语法规则！（略）因为树比较大，看不清楚，我们需要在树查看器中分析！从查看器中我们可以看到，客户等级最显著，也最重要，首先跑上来！针对低端客户，账单支付方式重要，对于预付话费的人来讲，数据业务小于50.73的主要是Y类套餐！这样我们就可以看到这个类别的特征了！最后的分类预测正确分类84.4%。下面是生成的SQL语法规则：UPDATE TABLE SET nod_001 = 4, pre_001 = 5, prb_001 = 0.974026 WHERE ((客户等级 IS NULL) OR 客户等级 2? AND? 客户等级 3)? AND? ((数据业务 IS NULL) OR (数据业务 = 38.754));我们可以把语法规则嵌入在分析系统中就可以实现商业智能和营销了！当然，CRT基本方法和解读方式都是一样的！总结：CHAID和CRT基本操作过程指定CHAID或CRT分类树规定目标变量和预测变量设定预测变量的测量等级，非数量型变量也可预先合并分类。规定树状结构的水平数。指定节点包含的最小样本数量。自动生成分类树。考察分类树的结构。分析Gain Table. 分析错误分类风险比。重新设定分类树参数。生成SQL语言，SPSS规则