机器学习第3章_决策树学习.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习第3章_决策树学习

错误率降低修剪 将树上的每一个节点作为修剪的候选对象 修剪步骤 删除以此节点为根的子树,使它成为叶结点 把和该节点关联的训练样例的最常见分类赋给它 反复修剪节点,每次总是选取那些删除后可以最大提高决策树在验证集合上的精度的节点 继续修剪,直到进一步的修剪是有害的为止 数据分成3个子集 训练样例,形成决策树 验证样例,修剪决策树 测试样例,精度的无偏估计 如果有大量的数据可供使用,那么使用分离的数据集合来引导修剪 决策树学习中错误率降低的修剪效果 规则后修剪 从训练集合推导出决策树,增长决策树直到尽可能好地拟合训练数据,允许过度拟合发生 将决策树转化为等价的规则集合,方法是为从根节点到叶节点的每一条路径创建一条规则 通过删除不会导致估计精度降低的前件来修剪每一条规则 按照修剪过的规则的估计精度对它们进行排序,并按这样的顺序应用这些规则来分类后来的实例 规则后修剪(2) 例子 if (outlook=sunny)?(Humidity=High) then PlayTennis=No if (outlook=sunny)?(Humidity=Normal) then PlayTennis=Yes … 考虑删除先行词(outlook=sunny)和(Humidity=High) 选择使估计精度有最大提升的步骤 考虑修剪第二个前件作为进一步的修剪步骤 规则后修剪(3) 规则精度估计方法 使用与训练集不相交的验证集 基于训练集合本身 被C4.5使用,使用一种保守估计来弥补训练数据有利于当前规则的估计偏置 过程 先计算规则在它应用的训练样例上的精度 然后假定此估计精度为二项式分布,并计算它的标准差 对于一个给定的置信区间,采用下界估计作为规则性能的度量 评论 对于大的数据集,保守预测非常接近观察精度,随着数据集合的减小,离观察精度越来越远 不是统计有效(此概念第5章介绍),但是实践中发现有效 规则后修剪(4) 把决策树转化成规则集的好处 可以区分决策节点使用的不同上下文 消除了根节点附近的属性测试和叶节点附近的属性测试的区别 提高了可读性 合并连续值属性 ID3被限制为取离散值的属性 学习到的决策树要预测的目标属性必须是离散的 树的决策节点的属性也必须是离散的 简单删除上面第2个限制的方法 通过动态地定义新的离散值属性来实现,即先把连续值属性的值域分割为离散的区间集合 合并连续值属性(2) 例子, Temperature应该定义什么样的基于阈值的布尔属性 选择产生最大信息增益的阈值 按照连续属性排列样例,确定目标分类不同的相邻实例 产生一组候选阈值,它们的值是相应的A值之间的中间值 可以证明产生最大信息增益的c值位于这样的边界中 (Fayyad1991) 通过计算与每个候选阈值关联的信息增益评估这些候选值 方法的扩展 连续的属性分割成多个区间,而不是单一阈值的两个空间 属性选择的其他度量标准 信息增益度量存在一个内在偏置,偏向具有较多值的属性 避免方法,其他度量,比如增益比率 增益比率通过加入一个被称作分裂信息的项来惩罚多值属性,分裂信息用来衡量属性分裂数据的广度和均匀性 SplitInformation(S,A)= GainRatio(S,A)= 分裂信息项阻碍选择值为均匀分布的属性 问题,当某个Si?S。解决方法:采用一些启发式规则, 比如仅对增益高过平均值的属性应用增益比率测试 属性选择的其他度量标准(2) 基于距离的度量 定义了数据划分间的一种距离尺度 计算每个属性产生的划分与理想划分间的距离 选择最接近完美划分的属性 Lopez de Mantaras定义了这个距离度量,证明了它不偏向有大量值的属性 此外 Mingers实验,不同的属性选择度量对最终精度的影响小于后修剪的程度和方法的影响 缺少属性值的训练样例 例子,医学领域 经常需要根据此属性值已知的实例来估计这个缺少的属性值 为了评估属性A是否是决策节点n的最佳测试属性,要计算决策树在该节点的信息增益Gain(S,A)。假定x,c(x)是S中的一个训练样例,并且其属性A的值A(x)未知 缺少属性值的训练样例(2) 处理缺少属性值的 一种策略是赋给它节点n的训练样例中该属性的最常见值 另一种策略是赋给它节点n的被分类为c(x)的训练样例中该属性的最常见值 更复杂的策略,为A的每个可能值赋予一个概率,而不是简单地将最常见的值赋给A(x) 处理不同代价的属性 实例的属性可能与代价相关 优先选择尽可能使用低代价属性的决策树,仅当需要产生可靠的分类时才依赖高代价属性 通过引入一个代价项到属性选择度量中,可以使ID3算法考虑属性代价 Tan和Schlimmer的例子 小结和补充读物 决策树学习为概念学习和学习其他离散值的函数提供

文档评论(0)

ctuorn0371 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档