第四章-决策树PPT课件.pptxVIP

第四章-决策树PPT课件.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

决策树1

大纲什么是决策树决策树算法ID3C4.5剪枝树连续属性处理缺失值处理可解释性总结2

决策树预备知识:根节点,叶子节点,非叶子节点每个非叶子节点代表一个属性的划分每次划分的结果要么导致下一个的决策问题要么导致最终结论决策树通过从根节点开始沿着分支直到叶子节点结束来对样本进行分类决策树最终的结论(叶子节点)对应一个目标值3

构建决策树的要素构建决策树的要素1、属性及属性值2、预定义的类别(目标值)3、充足的标记数据4

训练集5训练集对应三个要素

构建决策树的三个问题(3)什么时候停止并得到目标值?(1)从哪个属性开始或者说选择哪个属性作为根节点?6(2)选择哪个属性作为后继节点?

决策树决策树算法的基本思想:选择最优属性划分当前样本集合并把这个属性作为决策树的一个节点不断重复这个过程构造后继节点直到满足下面三个条件之一停止:对于当前节点,所有样本属于同一类或者没有属性可以选择了或者没有样本可以划分了7

属性选择决策树算法的一个关键问题:属性选择不同决策树算法的差异:属性选择方法不同下面以ID3算法为例讲解怎么构造决策树(ID3:InteractiveDichotomize3[RossQuinlan/1975])8

ID3ID3依据信息增益来选择最优属性信息增益是通过信息熵计算而来信息熵衡量一个集合的纯度例如:集合1:10个好瓜集合2:8个好瓜和2个坏瓜集合3:5个好瓜和5个坏瓜纯度:集合1集合2集合39

信息熵pi是当前集合里类别为i的样本所占的比例,则:Entropy({p1,…,pk})=-sum(pilog(pi))如果一个集合里的样本只有两个类别,那么:Entropy=-p1log(p1)-(1-p1)log(1-p1)当集合里的所有样本都属于同一类时,信息熵是0例如:集合1:10个好瓜当集合里所有样本均匀混合时,信息熵是1例如:集合2:5个好瓜,5个坏瓜p1=1orp1=0p1=0.510p1entropy

信息熵当集合里所有样本属于同一类时(纯度最高时),信息熵最小。当集合里所有样本均匀混合时(纯度最低时),信息熵最大纯度越低,信息熵越大;纯度越高,信息熵越小11

信息增益一个属性的信息增益是本属性对样本集合进行划分所带来的信息熵下降Di是集合D的第i个子集,a是一个属性,则:Gain(D,a)=Entropy(D)-∑(i=1tok)|Di|/|D|Entropy(Di)划分:划分后信息熵越低信息增益越大例如:D:5个好西瓜,5个坏瓜D1:2个好瓜,1个坏瓜D2:3个好瓜,4个坏瓜?12

举例色泽:D1(色泽=青绿)={1+,4+,6+,10-,13-,17-}D2(色泽=乌黑)={2+,3+,7+,8+,9-,15-}D3(色泽=浅白)={5+,11-,12-,14-,16-}=13训练集

举例同理:14

举例D1={1+,2+,3+,4+,5+,6+,8+,10-,15-}15纹理=?{1+,2+,3+,4+,5+,6+,8+,10-,15-}{7+,9-,13-,14-,17-}{11-,12-,16-}清晰稍糊模糊

ID3的缺陷例如:如果我们把“编号”作为一个属性,那么“编号”将会被选为最优属性。但实际上“编号”是无关属性,它对西瓜分类并没有太大作用。16ID3倾向于选择取值比较多的属性缺陷:有些属性可能会对分类任务没有太大作用,但是他们可能会被选为最优属性。

C4.5信息增益比:17该项是对属性取值个数的度量属性属性的取值个数样本集合

剪枝树太多的属性和分支可能会导致过拟合一种减少决策树中属性的技术:剪枝两种剪枝类型:预剪枝(前向剪枝)后剪枝(后向剪枝)18

剪枝泛化能力:用验证集精度来衡量预剪枝:在建造决策树的过程中停止添加属性后剪枝:决策树构建完成后剪掉一些属性预剪枝和后剪枝:都依据泛化能力19

预剪枝举例如果我们停止添加这个属性,那么当前节点的标记是好瓜:验证集精度:3/7=42.9%如果我们添加这个属性到决策树,则验证集精度:(1+1+1+1+1)/7=71.4%42.9%所以我们添加此属性。20训练集验证集

预剪枝举例预剪枝能够减少过拟合的风险,但它可能导致欠拟合预剪枝每次仅考虑了一个属性可能会带来泛化能力的下降,没有考虑后续多个属性的组合可能会带来的泛化能力的提升21

后剪枝举例剪去纹理属性前验证集精度:3/7=42.9%当我们剪去纹理属性(节点6):新的叶子节点包含:{7+,15-},标记:好瓜验证集精度:57

文档评论(0)

喜芝 + 关注
实名认证
文档贡献者

赶紧 下载啊啊啊啊

1亿VIP精品文档

相关文档