分类与回归分析.pptVIP

下载本文档

11
0
约3.74千字
约 30页
2016-06-26 发布于湖北
举报
版权申诉

分类与回归分析.ppt

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分类树与回归树分析 ——决策树分类决策树的基本概念：分类：决策树分为分类树和回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。一般的数据挖掘工具，允许选择分裂条件和修剪规则，以及控制参数（最小节点的大小，最大树的深度等等）来限制决策树的过拟合（overfiting)。过程：通过递归分割的过程构建决策树。寻找初始分裂：整个训练集作为产生决策树的集合，训练集每个记录必须是已经分好类的。决定哪个属性（Field）域作为目前最好的分类指标。一般的做法是穷尽所有的属性域，对每个属性域分裂的好坏做出量化，计算出最好的一个分裂。量化的标准是计算每个分裂的多样性（diversity）指标GINI指标。生成一棵完整的树：重复第一步，直至每个叶节点内的记录都属于同一类。数据的修剪：不同的算法有不同修剪规则（修剪成大小合适的树）。 ①CHAID（Chi-squared Automatic Interaction Detector），由Kass于1980年提出，其核心思想是：根据给定的结果变量（即目标变量）和经过筛选的特征指标（即预测变量）对样本进行最优分割，按照卡方检验的显著性进行多元列联表的自动判断分组。其分类过程是：首先选定分类的目标变量，然后用分类指标与结果变量进行交叉分类，产生一系列二维分类表，分别计算二维分类表的χ2值，比较P值的大小，以P值最小的二维表作为最佳初始分类表，在最佳二维分类的基础上继续使用分类指标对目标变量进行分类，重复上述过程直到P大于设定的有统计意义的α值时则分类停止。目标变量可以为nominal、ordinal、continuous三种类型，每个拆分点可以有多个子结点。 ②Exhaustive CHAID，由Biggs于1991年提出，通过连续合并相近的对子反复检测来选择最佳拆分点，相对于CHAID法需要花费较长的时间。目标变量可以为nominal、ordinal、continuous三种类型，其每个拆分点可以有多个子结点。 ③CRT（Classification and Regression Trees），由Breiman等于1984年首次提出，CART在计算过程中充分利用二叉树的结构，即根结点包含所有样本，对预测变量应用多种统计方法反复运算，将根结点分割为两个子结点，这个过程又在子结点上重复进行，成为一个回归过程，直至不可再分成为子结点为止，最后产生同质的与目标变量有关的子集。其目标是以尽量小的树将目标变量分入同质的组中。目标变量也可以为nominal、ordinal、continuous三种类型，其最终生成一个二叉树。 ④QUEST（Quick, Unbiased, Efficient Statistical Tree），由Loh和Shih于1997年提出，是一种快速且可避免由多分类预测变量引起的偏倚的算法。目标变量仅限于nominal型，且其最后生成的是二叉树。浙江大学医学院流行病与卫生统计学教研室沈毅浙江大学医学院流行病与卫生统计学教研室沈毅饮酒与产妇年龄发生早产的风险：低风险高风险一、方法选择二、模型定义在这一步可以选择并定义目标变量和预测变量，如果选择了QUEST法，则目标变量只能为nominal型。要改变变量的类型，可以对变量类型进行重定义（define variables）。（注意：目标变量类型的不同，树枝修剪的规则也不同）三、模型验证设定合适的验证模型的方式： ①Do not validate the tree：不另外建立数据集对模型进行验证，模型的建立和检验都基于整个数据集。 ②Partition my data into subsamples：整个数据文件成两部分，即训练样本（training sample）和检验样本（testing sample），如果通过训练样本生成的模型能够较好地拟合检验样本，则表明生成的决策树对类似于当前数据集结构的更大的数据集具有较好的通用性。在生成满意的训练样本的决策树后，对样本进行检验，决策树即变为应用检验样本后的结果，接着通过考察估计误差、gain系数，可以决定生成的决策树的通用程度。当样本量较大时可以选择该法。 ③Cross-validation：该法将整个数据集拆分成数个相等大小的部分，分别以每一部分作为检验样本，其余部分作为训练样本，生成数个决策树，并计算各个决策树的危险估计（risk estimates）的平均值。该法适用于样本量较小的情形。四、修剪树枝在这一步中可以通过设置树状图的最大层数（Maximum Tree Depth）、根