决策树学习教学课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 避免过度拟合的方法 及早停止树增长 后修剪法 两种方法的特点 第一种方法更直观,精确地估计何时停止树增长 第二种方法被证明在实践中更成功 * 避免过度拟合数据(3) 避免过度拟合的关键 使用什么样的准则来确定最终正确树的规模 解决方法 使用与训练样例截然不同的一套分离的样例,来评估通过后修剪方法从树上修建节点的效用 使用所有可用数据进行训练,但进行统计测试来估计扩展(或修剪)一个特定的节点是否有可能改善在训练集合外的实例上的性能 使用一个明确的标准来衡量训练样例和决策树的复杂度,当这个编码的长度最小时停止树增长 * 避免过度拟合数据(4) 方法评述 第一种方法是最普通的,常被称为训练和验证集法 可用数据分成两个样例集合: 训练集合,形成学习到的假设 验证集合,评估这个假设在后续数据上的精度 方法的动机:即使学习器可能会被训练集合误导,但验证集合不大可能表现出同样的随机波动 验证集合应该足够大,以便它本身可提供具有统计意义的实例样本 常见的做法是,样例的三分之二作训练集合,三分之一作验证集合 * 避免过度拟合数据(5) 将树上的每一个节点作为修剪的候选对象 修剪步骤 删除以此节点为根的子树,使它成为叶结点 把和该节点关联的训练样例的最常见分类赋给它 反复修剪节点,每次总是选取那些删除后可以最大提高决策树在验证集合上的精度的节点 继续修剪,直到进一步的修剪是有害的为止 数据集分成3个子集 训练样例,形成决策树 验证样例,修剪决策树 测试样例,精度的无偏估计 如果有大量的数据可供使用,那么使用分离的数据集合来引导修剪 * 错误率降低修剪(reduced-error pruning) * 错误率降低修剪法(举例) 步骤 从训练集合推导出决策树,增长决策树直到尽可能好地拟合训练数据,允许过度拟合发生 将决策树转化为等价的规则集合,方法是为从根节点到叶节点的每一条路径创建一条规则 通过删除任何能导致估计精度提高的前件来修剪每一条规则 按照修剪过的规则的估计精度对它们进行排序,并按这样的顺序应用这些规则来分类后来的实例 * 规则后修剪(rule post-pruning) 例子 图3-1的最左一条路径 if (outlook=sunny)?(Humidity=High) then PlayTennis=No 考虑删除先行词(outlook=sunny)和(Humidity=High) 选择使估计精度有最大提升的步骤 考虑修剪第二个前件 * 规则后修剪(2) 规则精度估计方法 使用与训练集不相交的验证集 基于训练集合本身[C4.5] 使用一种保守估计来弥补训练数据有利于当前规则的估计偏置 过程 先计算规则在它应用的训练样例上的精度 然后假定此估计精度为二项式分布,并计算它的标准差 对于一个给定的置信区间,采用下界估计作为规则性能的度量 评论 对于大的数据集,保守预测非常接近观察精度,随着数据集合的减小,离观察精度越来越远 不是统计有效,但是实践中发现有效 * 规则后修剪(3) 把决策树转化成规则集的好处 可以区分决策节点使用的不同上下文 消除了根节点附近的属性测试和叶节点附近的属性测试的区别 提高了可读性 * 规则后修剪(4) ID3被限制为取离散值的属性 目标属性 决策节点的属性 简单删除上面第2个限制的方法 通过动态地定义新的离散值属性来实现,即先把连续值属性的值域分割为离散的区间集合 * 合并连续值属性 应该定义什么样的基于阈值的布尔属性 选择产生最大信息增益的阈值 按照连续属性排列样例,确定目标分类不同的相邻实例 产生一组候选阈值,它们的值是相应的A值之间的中间值 可以证明产生最大信息增益的c值位于这样的边界中(Fayyad1991) 通过计算与每个候选阈值关联的信息增益评估这些候选值 * 合并连续值属性(2) 例子,Temperature * 合并连续值属性(2) 方法的扩展 连续的属性分割成多个区间,而不是单一阈值的两个空间 信息增益度量存在一个内在偏置,偏向具有较多值的属性 其他度量 比如增益比率、基于距离的度量 增益比率 分裂信息split Information * 属性选择的其他度量标准 增益比率 分裂信息项阻碍选择值为均匀分布的属性 问题,当某个Si?S, 分裂信息无定义,或无穷大 解决方法:采用一些启发式规则, 比如仅对增益高过平均值的属性应用增益比率测试 * 属性选择的其他度量标准(续) 基于距离的度量 定义了数据划分间的一种距离尺度 计算每个属性产生的划分与理想划分间的距离 选择最接近完美划分的属性 证明了它不偏向有大量值的属性 M

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档