- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树是同时提供分类与预测的常用方法。 决策树的数据分析方法是一种树形结构来表现数据各变量影响程度的预测模型,利用树上各级结点的分支自动确认和评估各个类别。 决策树能从一个或多个预测变量中,针对类别因变量的选项,预测出个例的趋势变化关系等。也可以由结果来反推原因。 决策树是同时提供分类与预测的常用方法。通过一系列的选择将数据分类,可由落入相同结点的路径上的规则集来推测相同的结果。 决策树主要功能是由已知分类的个体来建立决策树和相对应的决策规则。 与神经网络不同,决策树产生的决策规则可用文字或数字来表达。 常用决策树的方法有CHAID以及CART CHAID(卡方自动交互检测法)决策树只限于处理分类变量,如果是连续变量必须采用区段的方式,先转换数据成为类别变量,才可以使用。 CHAID决策树的基本步骤如下: (1)对每个变量都计算其所有可能的分割点,并找出一个最佳分割点。 (2)比较各预测变量在“最佳分割方式”下的组间方差,然后找出一个组间方差最大的变量,即为最佳的预测变量。 (3)用最佳预测变量的最佳分割方式把原始数据分成两组。 (4)将分割后的每一组作为样本,重复前述分割步骤。 (5)重复分割,直到所有变量都被用完为止。 针对分类预测变量,计算以单变量分裂为基础的二元决策树 针对顺序预测变量,计算以单变量分裂为基础的二元决策树(至少为顺序尺度类型的变量) 混合两类方式的预测变量计算以单变量分裂为基础的二元决策树 决策树与判别函数的比较如表10-1所示 决策树是要建立预测正确率最高的分类规则 预测精度的定义,一般包含了成本的概念 成本指的是个例被混合分类时的比例 如果研究中,各分类包含的个例数的比例相等或相近,或各类中的个例数目相等或相近,就可以选择“相同先验概率” 如果不同分类的比例相差较大,以至于影响到分类数,那么,可依据样本中的分类比例来估计先验概率 如果针对基本比例有着经验判断,便可以给予不同的基本比例,并可将其归类为先验概率 如果设置相同的错误分类成本,并且不以分类的个体比例作为权数,那么错误分类率是相同的 分层技术比较如表10-2所示 在决策树模块中,提供两个选项可以控制停止分裂(分层)的时间点: (1)取小n(最终节点中所包含的个例数) (2)设置对象的片段 在一般化的分割过程中,需要确定决策树的适当规模 决策树模块可提供几种不同的选取适当大小的策略,可择一或同时使用。如表10-3所示 * 1 第10章 决策树模型 10.1 基本概念 10.2 决策树模型的建立 10.3 决策树与判别函数的比较 10.4 计算方法 10.5 SQL Server 2005操作步骤 2 10.1 基本概念 3 10.1 基本概念 4 10.1 基本概念 5 10.1 基本概念 6 10.2 决策树模型的建立 7 10.3 决策树与判别函数的比较 8 10.4 计算方法—制定预测精确度的标准 9 10.4 计算方法—先验概率 10 10.4 计算方法—选择分裂(分层)技术 11 10.4 计算方法—定义停止分层的时点 12 10.4 计算方法—选择适当大小的决策树 *
文档评论(0)