第3章决策树学习.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
奥坎姆剃刀 设想你是在一条积雪的街上行走。在你前面有一个人带着一顶黑色的高筒礼帽。 街对面站着一群男孩,觉得这顶礼帽是个很好的目标,其中一个扔雪球一下击中了帽子。让我们举出两种解释来说明这顶帽子的随后遭遇。 第一,在帽子受击的一刹那,一队天使疾飞而下,出其不意地把帽子从那人头上揭走了。 第二,雪球把帽子击落了。 我们将选择??种解释。 这就是科学上普遍适用的所谓“节俭律”的简单说明。这条定律的意义,就在于说明,最可能的解释就是最好的解释,有时这条定律又被称为奥坎姆剃刀 第三十一页,共五十七页。 为什么短的假设优先 奥坎姆剃刀的困难 可以定义很多小的假设集合,根据什么相信有短描述的决策树组成的小假设集合比其他可定义的小假设集合更适当? 假设的规模由学习器内部使用的特定表示决定 从生物进化的观点看内部表示和奥坎姆剃刀原则 第三十二页,共五十七页。 决策树学习的常见问题 决策树学习的实际问题 确定决策树增长的深度 处理连续值的属性 选择一个适当的属性筛选度量标准 处理属性值不完整的训练数据 处理不同代价的属性 提高计算效率 针对这些问题,ID3被扩展成C4.5 第三十三页,共五十七页。 避免过度拟合数据 过度拟合 对于一个假设,当存在其它的假设对训练样例的拟合比它差,但事实上在实例的整个分布上表现得却更好时,我们说这个假设过度拟合训练样例。 定义:给定一个假设空间H,一个假设h?H,如果存在其它的假设h’?H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’的错误率比h小,那么就说假设h过度拟合训练数据。 树的规模 accuracy on training data on test data 第三十四页,共五十七页。 避免过度拟合数据(2) 导致过度拟合的原因(1) 一种可能原因是训练样例含有随机错误或噪声 Sunny Hot Normal Strong PlayTennis=No 第三十五页,共五十七页。 避免过度拟合数据(3) 导致过度拟合的原因(2) 当训练数据没有噪声时,过度拟合也有可能发生,特别是当少量的样例被关联到叶子节点时,很可能出现巧合的规律性,使得一些属性恰巧可以很好地分割样例,但却与实际的目标函数并无关系。 过度拟合使决策树的精度降低(10~25)% 第三十六页,共五十七页。 避免过度拟合数据(4) 避免过度拟合的方法 及早停止树增长 后修剪法 两种方法的特点 第一种方法更直观 第一种方法中,精确地估计何时停止树增长很困难 第二种方法被证明在实践中更成功 第三十七页,共五十七页。 避免过度拟合数据(5) 避免过度拟合的关键 使用什么样的准则来确定最终正确树的规模 解决方法 使用与训练样例截然不同的一套分离的样例,来评估通过后修剪方法从树上修剪节点的效用。 使用所有可用数据进行训练,但进行统计测试来估计扩展(或修剪)一个特定的节点是否有可能改善在训练集合外的实例上的性能。 使用一个明确的标准来衡量训练样例和决策树的复杂度,当这个编码的长度最小时停止树增长。 第三十八页,共五十七页。 避免过度拟合数据(6) 方法评述 第一种方法是最普通的,常被称为训练和验证集法。 可用数据分成两个样例集合: 训练集合,形成学习到的假设 验证集合,评估这个假设在后续数据上的精度 方法的动机:即使学习器可能会被训练集合误导,但验证集合不大可能表现出同样的随机波动 验证集合应该足够大,以便它本身可提供具有统计意义的实例样本。 常见的做法是,样例的三分之二作训练集合,三分之一作验证集合。 第三十九页,共五十七页。 错误率降低修剪 将树上的每一个节点作为修剪的候选对象 修剪步骤 删除以此节点为根的子树,使它成为叶结点 把和该节点关联的训练样例的最常见分类赋给它 反复修剪节点,每次总是选取那些删除后可以最大提高决策树在验证集合上的精度的节点 继续修剪,直到进一步的修剪是有害的为止 数据分成3个子集 训练样例,形成决策树 验证样例,修剪决策树 测试样例,精度的无偏估计 如果有大量的数据可供使用,那么使用分离的数据集合来引导修剪 第四十页,共五十七页。 Date: * File: ML3.* Machine Learning Peng Kaixiang 2015. All rights reserved. Machine Learning for Control Engineering 第3章 决策树学习 (Decision-Tree Algorithm) 第一页,共五十七页。 排名 主题 算法 得票数 发表时间 作者 陈述人 1 分类 C4.5 61 1993 Quinlan, J.R Hiroshi Motoda 2 聚类 k-Means 60 1967 MacQueen, J.B Joydeep Ghosh 3 统计

文档评论(0)

虾虾教育 + 关注
官方认证
文档贡献者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档