课件08 2第八章机器学习 决策树ID3算法的实例解析.ppt

课件08 2第八章机器学习 决策树ID3算法的实例解析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
避免过度拟合数据 ? 过度拟合 ? 对于一个假设,当存在其他的假设对训练样例的拟 合比它差,但事实上在实例的整个分布上表现得却 更好时,我们说这个假设过度拟合训练样例 ? 定义:给定一个假设空间 H ,一个假设 h ? H ,如果 存在其他的假设 h ? H ,使得在训练样例上 h 的错误 率比 h 小,但在整个实例分布上 h 的错误率比 h 小, 那么就说假设 h 过度拟合训练数据。 避免过度拟合数据( 2 ) ? 导致过度拟合的原因 ? 一种可能原因是训练样例含有随机错误或噪 声 ? 当训练数据没有噪声时,过度拟合也有可能 发生,特别是当少量的样例被关联到叶子节 点时,很可能出现巧合的规律性,使得一些 属性恰巧可以很好地分割样例,但却与实际 的目标函数并无关系。 避免过度拟合数据( 3 ) ? 避免过度拟合的方法 ? 及早停止树增长 ? 后修剪法 ? 两种方法的特点 ? 第一种方法更直观 ? 第一种方法中,精确地估计何时停止树增长 很困难 ? 第二种方法被证明在实践中更成功 避免过度拟合数据( 4 ) ? 避免过度拟合的关键 ? 使用什么样的准则来确定最终正确树的规模 ? 解决方法 ? 使用与训练样例截然不同的一套分离的样例,来评 估通过后修剪方法从树上修建节点的效用。 ? 使用所有可用数据进行训练,但进行统计测试来估 计扩展(或修剪)一个特定的节点是否有可能改善 在训练集合外的实例上的性能。 ? 使用一个明确的标准来衡量训练样例和决策树的复 杂度,当这个编码的长度最小时停止树增长。 避免过度拟合数据( 5 ) ? 方法评述 ? 第一种方法是最普通的,常被称为训练和验证集法。 ? 可用数据分成两个样例集合: ? 训练集合,形成学习到的假设 ? 验证集合,评估这个假设在后续数据上的精度 ? 方法的动机:即使学习器可能会被训练集合误导, 但验证集合不大可能表现出同样的随机波动 ? 验证集合应该足够大,以便它本身可提供具有统计 意义的实例样本。 ? 常见的做法是,样例的三分之二作训练集合,三分 之一作验证集合。 错误率降低修剪 ? 将树上的每一个节点作为修剪得候选对象 ? 修剪步骤 ? 删除以此节点为根的子树,使它成为叶结点 ? 把和该节点关联的训练样例的最常见分类赋给它 ? 反复修剪节点,每次总是选取那些删除后可以最大提高决策树在 验证集合上的精度的节点 ? 继续修剪,直到进一步的修剪是有害的为止 ? 数据分成 3 个子集 ? 训练样例,形成决策树 ? 验证样例,修剪决策树 ? 测试样例,精度的无偏估计 ? 如果有大量的数据可供使用,那么使用分离的数据集合来 引导修剪 规则后修剪 ? 从训练集合推导出决策树,增长决策树直到尽 可能好地拟合训练数据,允许过度拟合发生 ? 将决策树转化为等价的规则集合,方法是为从 根节点到叶节点的每一条路径创建一条规则 ? 通过删除任何能导致估计精度提高的前件来修 剪每一条规则 ? 按照修剪过的规则的估计精度对它们进行排序, 并按这样的顺序应用这些规则来分类后来的实 例 规则后修剪( 2 ) ? 例子 ? if (outlook=sunny) ? (Humidity=High) then PlayTennis=No ? 考虑删除先行词 (outlook=sunny) 和 (Humidity=High) ? 选择使估计精度有最大提升的步骤 ? 考虑修剪第二个前件 决策树模型 排名 挖掘主题 算法 得票数 发表时间 作者 陈述人 1 分类 C4.5 61 1993 Quinlan, J.R Hiroshi Motoda 2 聚类 k-Means 60 1967 MacQueen, J.B Joydeep Ghosh 3 统计学习 SVM 58 1995 Vapnik, V.N QiangYang 4 关联分析 Apriori 52 1994 Rakesh Agrawal Christos Faloutsos 5 统计学习 EM 48 2000 McLachlan, G Joydeep Ghosh 6 链接挖掘 PageRank 46 1998 Brin, S. Christos Faloutsos 7 集装与推进 AdaBoost 45 1997 Freund, Y .

文档评论(0)

wangsux + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档