5-nonlinear-classification-and-regression-with-decision-trees英文文献资料.pdf

5-nonlinear-classification-and-regression-with-decision-trees英文文献资料.pdf

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树——非线性回归与分类 前面几章,我们介绍的模型都是广义线性模型,基本方法都是通过联接方程构建解释变量与若干响应 变量的关联关系。我们用多元线性回归解决回归问题,逻辑回归解决分类问题。本章我们要讨论一种 简单的非线性模型,用来解决回归与分类问题,称为决策树 (decision tree)。首先,我们将用决策 树做一个广告屏蔽器,可以将网页中的广告内容屏蔽掉。之后,我们介绍集成学习 (lensemble learning)方法,通过将一系列学习方法集成使用,以取得更好的训练效果。 决策树简介 决策树就是做出一个树状决策,就像猜猜看(Twenty Questions) 的游戏。一个玩家 (先知)选择一种 常见物品,但是事先不能透露给其他玩家 (提问者)。提问者最多问20个问题,而先知只能回答: 是,否,可能三种答案。提问者的提问会根据先知的回答越来越具体,多个问题问完后,提问者的决 策就形成了一颗决策树。决策树的分支由可以猜出响应变量值的最短的解释变量序列构成。因此,在 猜猜看游戏中,提问者和先知对训练集的解释变量和响应变量都很了解,但是只有先知知道测试集的 响应变量值。 决策树通常是重复的将训练集解释变量分割成子集的过程,如下图所示。决策树的节点用方块表示, 用来测试解释变量。每个节点向下的边表示不同决策产生结果。训练集的样本由决策结果分成不同的 子集。例如,一个节点测试解释变量的值是否超过的限定值。如果没有超过,则进入该节点的右侧子 节点;如果超过,则进入左侧子节点。子节点的运行原理和前面的一样,直到终止条件 (stopping criterion)满足才停止。在分类任务中,包含在叶子节点中的样本响应变量的值的平均值作为响应变 量的估计值。决策树建立之后,做决策的过程就是把测试样本放进决策树沿着边不断前进,直到一个 叶子被触及才停止前进。 训练决策树 我们用Ross Quinlan发明的ID3 (Iterative Dichotomiser 3 ,迭代二叉树3代)算法创建决策树,ID3是 最早用于决策树的算法之一。假设你有一些猫和狗的分类数据。但是不允许直接观察,你只能通过动 物特征的描述去做决策。对每个动物,你都会获得关于“是否喜欢玩球 (play fetch)”和“是否经常发 脾气” ,以及它最喜欢的食物三个问题的答案。 要正确分出新动物的种类,决策树需要对每条边的解释变量进行检查。每条边的下一个节点由测试结 果决定。例如,第一关节点可能问“是否喜欢玩球” ,如果回答“YES” ,则进入左节点,否则,如果回 答“NO” ,则进入右节点。以此类推,最后一条边会指向一个叶子节点,那就是答案。下表是14个节 点的训练数据: 训练数据 是否喜欢玩球 是否经常发脾气 最喜欢的食物 种类 1 Yes No Bacon Dog 2 No Yes Dog Food Dog 3 No Yes Cat food Cat 4 No Yes Bacon Cat 5 No No Cat food Cat 6 No Yes Bacon Cat 7 No Yes Cat Food Cat 8 No No Dog Food Dog No Yes Cat food Cat 10 Yes No Dog Food Dog 11 Yes No Bacon Dog 12 No No Cat

您可能关注的文档

文档评论(0)

独角戏 + 关注
实名认证
内容提供者

本人有良好思想品德,职业道德和专业知识。

1亿VIP精品文档

相关文档