- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
8决策树与Adaboost
决策树、Adaboost
北京10月机器学习班 邹博
2014年11月1日
2/40
复习:熵
sqrt(1-4x)exp(-2x),0x1/4
H(Y|X) = H(X,Y) - H(X)
条件熵定义
H(Y|X) = H(Y) - I(X,Y)
根据互信息定义展开得到
有些文献将I(X,Y)=H(Y) – H(Y|X)作为互信息的定义式
对偶式
H(X|Y)= H(X,Y) - H(Y)
H(X|Y)= H(X) - I(X,Y)
I(X,Y)= H(X) + H(Y) - H(X,Y)
有些文献将该式作为互信息的定义式
试证明:H(X|Y) ≤H(X), H(Y|X) ≤H(Y)
3/40
强大的Venn图:帮助记忆
4/40
等式变化
根据H(Y|X) = H(Y) - I(X,Y)
得到I(X,Y) = H(Y) - H(Y|X)
I(X,Y):在X中包含的关于Y的信息
5/40
k近邻分类
6/40
决策树(Decision Tree)
一种描述概念空间的有效的归纳推理办法。基于决策树的学习方法可以进行不相关的多概念学习,具有简单快捷的优势,已经在各个领域取得广泛应用。
决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶结点代表一种类别。
7/40
决策树示意图
8/40
决策树学习
决策树学习是以实例为基础的归纳学习。
决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类。
9/40
决策树学习算法的特点
决策树学习算法的最大优点是,它可以自学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练例子进行较好的标注,就能够进行学习。
从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则。
10/40
决策树学习的生成算法
ID3
C4.5
CART
11/40
信息增益
当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵和条件熵分别称为经验熵和经验条件熵。
信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。
定义:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:g(D,A)=H(D) – H(D|A)
即训练数据集类别和特征的互信息。
12/40
基本记号
设训练数据集为D,|D|表示其容量,即样本个数。设有K个类Ck,k=1,2,…,K,|Ck|为属于类Ck的样本个数。Σk|Ck|=|D|。设特征A有n个不同的取值{a1,a2…an},根据特征A的取值讲D划分为n个子集D1,D2,…Dn,|Di|为Di的样本个数,Σi|Di|=D。记子集Di中属于类Ck的样本的集合为Dik,|Dik|为Dik的样本个数。
13/40
信息增益的计算方法
计算数据集D的经验熵
计算特征A对数据集D的经验条件熵H(D|A)
计算信息增益:g(D,A)=H(D) – H(D|A)
14/40
经验条件熵H(D|A)
15/40
其他目标
信息增益率:gr(D,A) = g(D,A) / H(A)
基尼指数:
16/40
讨论
考察基尼指数的图像、熵、分类误差率三者之间的关系
使用1-x近似代替-lnx
17/40
三种决策树学习算法
适应信息增益来进行特征选择的决策树学习过程,即为ID3决策。
所以如果是取值更多的属性,更容易使得数据更“纯”(尤其是连续型数值),其信息增益更大,决策树会首先挑选这个属性作为树的顶点。结果训练出来的形状是一棵庞大且深度很浅的树,这样的划分是极为不合理的。
C4.5:信息增益率
CART:基尼系数
一个属性的信息增益越大,表明属性对样本的熵减少的能力更强,这个属性使得数据由不确定性变成确定性的能力越强。
18/40
提升方法
一个概念如果存在一个多项式的学习算法能够学习它,并且正确率很高,那么,这个概念是强可学习的;
一个概念如果存在一个多项式的学习算法能够学习它,并且学习的正确率仅比随机猜测略好,那么,这个概念是弱可学习的;
强可学习与弱可学习是等价的。
在学习中,如果已经发现了“弱学习算法”,能否将他提升为“强学习算法”。
19/40
Adaboost
设训练数据集T={(x1,y1), (x2,y2)…(xN,yN)}
初始化训练数据的权值分布
20/40
Adaboost:对于m=1,2,…M
使用具有权值分布Dm的训练数据集学习,得到基本分类器
计算Gm(x)在训练数据集上的分类误差率
计算Gm(x)的系数
21/40
Adaboost:对于m=1,2,…M
更新训练数据集的权值分布
这里,Zm是
您可能关注的文档
最近下载
- 办公家具采购方案(技术方案).pdf
- 木材常规干燥工艺干燥工艺.ppt
- 【鲁教版】七年级数学下期末试卷(及答案).doc
- 【结题报告】《小学语文阅读教学深度融合核心素养培育研究》结题报告.pdf
- 2023年湖南工商大学公共课《中国近代史纲要》期末试卷A(有答案).docx VIP
- 商业银行营业场所技防设施、设备使用管理办法(最新).doc VIP
- AP微积分AB 2014年真题 附答案和评分标准 AP Calculus AB 2014 Real Exam with Answers and Scoring Guidelines.pdf VIP
- 成人机械通气患者俯卧位护理-中华护理学会团体标准.pptx VIP
- 严蔚敏《数据结构》(C语言版)典型习题和考研真题详解.pdf VIP
- 中国公民健康素养66条讲座课件.ppt
文档评论(0)