决策树资料.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主要内容 决策树基本概念 决策树算法 决策树研究问题 主要参考文献 第6章 决策树 决策树研究问题 理想的决策树有三种: (1)叶子结点数最少; (2)叶子结点深度最小; (3)叶子结点数最少且叶子结点深度最小。 然而,洪家荣等人已经证明了要找到这种最优的决策树是NP难 题。因此,决策树优化的目的就是要找到尽可能趋向于最优的 决策树。 第6章 决策树 关于过渡拟合 上述的决策树算法增长树的每一个分支的深度,直到恰好能 对训练样例比较完美地分类。实际应用中,当数据中有噪声或训练 样例的数量太少以至于不能产生目标函数的有代表性的采样时,该 策略可能会遇到困难。 在以上情况发生时,这个简单的算法产生的树会过渡拟合训练 样例(过渡拟合:Over Fitting). 决策树研究问题 关于过渡拟合 第6章 决策树 对于一个假设,当存在其它的假设对训练样例的拟合比它差, 但事实上在实例的整个分布上(包含训练集合以外的实例)表现得 却更好时,则称该假设过度拟合训练样例。 过度拟合:给定一个假设空间H,一个假设h∈H,如果存在其 它的假设h1 ∈H ,使得在训练样例上h的错误率比h1小,但在整个实 例发布上h1的错误率比h小,则称假设h过度拟合训练数据 过度拟合产生的原因:噪声,训练样例太小等 决策树研究问题 关于过渡拟合 第6章 决策树 对学习算法是否成功的真正测试是看它对于训练中未见到的 数据的执行性能。 训练过程应该包含训练样本和验证样本。验证样本用于测试 训练后的性能。如果验证结果差,则需要考虑采用不同的结构重 新进行训练,例如使用更大的样本集,或者改变从连续值到离散 值得数据转换等。 通常应该建立一个验证过程,在训练最终完成后用来检测训 练结果的泛化能力。 决策树研究问题 关于过渡拟合 第6章 决策树 分类模型的误差 一般可以将分类模型的误差分为: 1、训练误差(Training Error); 2、泛化误差(Generalization Error) 决策树研究问题 关于过渡拟合 第6章 决策树 分类模型的误差 训练误差是在训练记录上误分类样本比例; 泛化误差是模型在未知记录上的期望误差; 一个好的模型不仅要能够很好地拟合训练数据,而且对未知 样本也要能够准确地分类。 一个好的分类模型必须具有低的训练误差和泛化误差。因为 一个具有低训练误差的模型,其泛化误差可能比具有较高训练误 差的模型高。(训练误差低,泛化误差高,称为过渡拟合) 决策树研究问题 关于过渡拟合 第6章 决策树 模型过渡拟合的潜在因素 (1)噪声导致的过渡拟合; 错误的类别值/类标签,属性值等 (2)缺乏代表性样本所导致的过渡拟合 根据少量训练记录作出的分类决策模型容易受过渡拟合的 影响。由于训练样本缺乏代表性的样本,在没有多少训练 记录的情况下,学习算法仍然继续细化模型就会导致过渡 拟合。 决策树研究问题 关于过渡拟合 第6章 决策树 模型过渡拟合的潜在因素 Y Y Y Y 恒温 鸭嘴兽 N Y N N 恒温 弱夜鹰 N N N N 恒温 鹰 N N N Y 冷血 虹鳉 N Y Y N 冷血 蝾螈 哺乳动物 冬眠 4条腿 胎生 体温 名称 哺乳动物分类的训练样例 体温 恒温 冷血 冬眠 N Y N N 4条腿 Y N N Y Y N Y Y 恒温 大象 N N N N 恒温 鸽子 Y N N Y 恒温 人 哺乳动物 冬眠 4条腿 胎生 体温 名称 哺乳动物分类的训练样例 按照训练模型。人和大象都不是 哺乳动物。决策树作出这样的判 断是因为只有一个训练样例具有 这些特点(鹰,恒温,不冬眠) 被划分为非哺乳动物。 该例清楚表明,当决策树的叶节 点没有足够的代表性时,可能会 预测错误。 决策树研究问题 关于过渡拟合 第6章 决策树 解决过度拟合的手段: 1 及早停止树增长; 2 后修剪法。 决策树研究问题 关于过渡拟合 第6章 决策树 1 及早停止树增长 由于决策树学习要从候选集合众选择满足给定标准的 最大化属性,并且不回溯,也就是我们常说的爬山策略,其 选择往往会是局部最优而不是全局最优。树结构越复杂,则 过渡拟合发生的可能性越

文档评论(0)

精品资源 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档