- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
决策树及随机效应模型张文超2014/05/07
基本概念决策树模型的建立决策树与判别函数的比较计算方法决策树及随机效应模型R软件包应用
10.1决策树是同时提供分类的预测的常用方法决策树的数据分析是一种树形结构来表现数据各变量影响程度的预测模型,利用树上各级节点分支自动确认和评估各个类别。决策树能从一个或多个预测变量中,针对类别因变量的选项,预测出个例的趋势变化关系等,也可以由结果反推原因。
决策树是同时提供分类与预测的常用方法。通过一系列的选择将数据分类,可由落入相同结点的路径上的规则集来推测相同的结果。决策树的主要功能是由已知分类的个体来建立决策树和相应的决策规则。与神经网络不同,决策树产生的决策规则可用文字或数字来表达?。
常用的决策树方法有CHAID(chaid)以及CART(cart)CHAID(卡方自动交互检测法)决策树只限于处理分类变量,如果是连续变量必须采用区段的方式,先转换数据为类别变量,才可以使用。
CHAID决策树的基本步骤如下:(1)对每个变量都计算其所有可能的分割点,并找出一个最佳分割点。(2)比较各预测变量在“最佳分割方式”下的组间方差,然后找出一个组间方差最大的变量,即为最佳预测变量。(3)用最佳预测变量的最佳分割方式把原始数据分成两组(4)将分割后的每一组作为样本,重复前述分割步骤(5)重复分割,直到所有变量都被用完为止。
10.2决策树模型的建立针对分类预测变量,计算以单变量分裂为基础的二元决策树针对顺序预测变量,计算以单变量分裂为基础的二元决策树(至少为顺序尺度类型的变量)混合两类方法的预测变量计算以单变量分裂为基础的二元决策树。
10.3决策树与判别函数的比较决策树与判别函数的比较如表10-1所示
10.4计算方法—制定预测精确度的标准决策树是要建立预测正确率最高的分类规则预测精度的定义,一般包含了成本的概念成本指的是个例被混合分类时的比例
10.4计算方法-先验概率如果研究中,各分类包含的个例数的比例相等或相近,或各类中的个例数目相等或相近,就可以选择“相同先验概率”。如果不同分类的比例相差较大,以至于影响到分类数,那么,可依据样本中的分类比例来估计先验概率。如果针对基本比例有着经验判断,便可以给予不同的基本比例,并可将其归类为先验概率如果设置相同的错误分类成本,并且不以分类的个体比例作为权数,那么错误分类率是相同的。
10.4计算方法-选择分裂(分层)技术分层技术比较如表10-2所示
10.4计算方法-定义停止分层的时点在决策树模块中,提供两个选项可以控制停止分裂(分层)的时间点:(1)取小n(最终节点中所包含的个例数)(2)设置对象的片段
10.4计算方法-选择适当大小的决策树在一般化的分割过程中,需要确定决策树的适当规模决策树模块可提供几种不同的选取适当大小的策略,可择一或同时使用。如表10-3所示。
1.1决策树
决策树(DecisionTree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy=系统的凌乱程度,使用算法ID3,?C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。决策树是数据挖掘分类算法的一个重要方法。在各种分类算法中,决策树是最直观的一种。
1.2组成
□——决策点,是对几种可能方案的选择,即最后选择的最佳方案。如果决策属于多级决策,则决策树的中间可以有多个决策点,以决策树根部的决策点为最终决策方案。○——状态节点,代表备选方案的经济效果(期望值),通过各状态节点的经济效果的对比,按照一定的决策标准就可以选出最佳方案。由状态节点引出的分支称为概率枝,概率枝的数目表示可能出现的自然状态数目每个分枝上要注明该状态出现的概率。△——结果节点,将每个方案在各种自然状态下取得的损益值标注于结果节点的右端。
1.3画法
机器学习,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数
文档评论(0)