- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
决策树——非线性回归与分类
前面几章,我们介绍的模型都是广义线性模型,基本方法都是通过联接方程构建解释变量与若干响应
变量的关联关系。我们用多元线性回归解决回归问题,逻辑回归解决分类问题。本章我们要讨论一种
简单的非线性模型,用来解决回归与分类问题,称为决策树 (decision tree)。首先,我们将用决策
树做一个广告屏蔽器,可以将网页中的广告内容屏蔽掉。之后,我们介绍集成学习 (lensemble
learning)方法,通过将一系列学习方法集成使用,以取得更好的训练效果。
决策树简介
决策树就是做出一个树状决策,就像猜猜看(Twenty Questions) 的游戏。一个玩家 (先知)选择一种
常见物品,但是事先不能透露给其他玩家 (提问者)。提问者最多问20个问题,而先知只能回答:
是,否,可能三种答案。提问者的提问会根据先知的回答越来越具体,多个问题问完后,提问者的决
策就形成了一颗决策树。决策树的分支由可以猜出响应变量值的最短的解释变量序列构成。因此,在
猜猜看游戏中,提问者和先知对训练集的解释变量和响应变量都很了解,但是只有先知知道测试集的
响应变量值。
决策树通常是重复的将训练集解释变量分割成子集的过程,如下图所示。决策树的节点用方块表示,
用来测试解释变量。每个节点向下的边表示不同决策产生结果。训练集的样本由决策结果分成不同的
子集。例如,一个节点测试解释变量的值是否超过的限定值。如果没有超过,则进入该节点的右侧子
节点;如果超过,则进入左侧子节点。子节点的运行原理和前面的一样,直到终止条件 (stopping
criterion)满足才停止。在分类任务中,包含在叶子节点中的样本响应变量的值的平均值作为响应变
量的估计值。决策树建立之后,做决策的过程就是把测试样本放进决策树沿着边不断前进,直到一个
叶子被触及才停止前进。
训练决策树
我们用Ross Quinlan发明的ID3 (Iterative Dichotomiser 3 ,迭代二叉树3代)算法创建决策树,ID3是
最早用于决策树的算法之一。假设你有一些猫和狗的分类数据。但是不允许直接观察,你只能通过动
物特征的描述去做决策。对每个动物,你都会获得关于“是否喜欢玩球 (play fetch)”和“是否经常发
脾气” ,以及它最喜欢的食物三个问题的答案。
要正确分出新动物的种类,决策树需要对每条边的解释变量进行检查。每条边的下一个节点由测试结
果决定。例如,第一关节点可能问“是否喜欢玩球” ,如果回答“YES” ,则进入左节点,否则,如果回
答“NO” ,则进入右节点。以此类推,最后一条边会指向一个叶子节点,那就是答案。下表是14个节
点的训练数据:
训练数据 是否喜欢玩球 是否经常发脾气 最喜欢的食物 种类
1 Yes No Bacon Dog
2 No Yes Dog Food Dog
3 No Yes Cat food Cat
4 No Yes Bacon Cat
5 No No Cat food Cat
6 No Yes Bacon Cat
7 No Yes Cat Food Cat
8 No No Dog Food Dog
No Yes Cat food Cat
10 Yes No Dog Food Dog
11 Yes No Bacon Dog
12 No No Cat
您可能关注的文档
- @[TMM 2010] Real-Time Visual Concept Classification英文文献资料.pdf
- [ICCV 2011] Tasting Families of Features for Image Classification英文文献资料.pdf
- [NIPS 2011] Learning Anchor Planes for Classification英文文献资料.pdf
- [NIPS 2011] Matrix Completion for Multi-label Image Classification英文文献资料.pdf
- [NIPS 2012] Multilabel Classification using Bayesian Compressed Sensing英文文献资料.pdf
- [NIPS 2012] Projection Retrieval for Classification英文文献资料.pdf
- 01_Linear_Models_for_Binary_Classification_21-35英文文献资料.pdf
- 1A - Fudan 2014 Salary Classification Question英文文献资料.pdf
- 2_PRoNTo_Course_Classification英文文献资料.pdf
- 3 Bias and variance trade-off英文文献资料.pdf
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
文档评论(0)