第六章 机器学习(1)-_决策树学习.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树结构 图结构 内部节点(非树叶节点,包括根节点) 在一个属性下的测试 分枝 一个测试输出 树叶节点 类标识 构建决策树 决策树学习的适用问题 实例由“属性-值”对表示 目标函数具有离散的输出值(1or 0) 可能需要析取的描述 训练数据可以包含错误 训练数据可以包含缺少属性值的实例-赋给最常见的值或赋予每个可能值一个概率 * * * * * * * * * * * * * * * * * * * * * * * * 决策树结构 (代表分类后所获得的分类标记) :什么因素影响打网球? 例子: 在一个水果的分类问题中,采用的特征向量为:{颜色,尺寸,形状,味道},其中: 颜色属性的取值范围:{红,绿,黄} 尺寸属性的取值范围:{大,中,小} 味道属性的取值范围:{甜,酸} 形状属性的取值范围:{圆,细} 样本集:一批水果,知道其特征向量及类别 问 题:一个新的水果,观测到了其特征向量, 应该将其分类哪一类? :水果的类别 通常决策树代表实例属性值约束的合取(conjunction)的析取式(disjunction)。从树根到树叶的每一条路径对应一组属性测试的合取,树本身对应这些合取的析取。 上述例子可对应如下析取式: (颜色=绿∧尺寸=大) ∨(颜色=绿∧尺寸=中) ∨(颜色=绿∧尺寸=小) ∨(颜色=黄∧形状=圆∧尺寸=大) ∨(颜色=黄∧形状=圆∧尺寸=小) ∨(颜色=黄∧形状=细) ∨(颜色=红∧尺寸=中) ∨(颜色=红∧尺寸=小∧味道=甜) ∨(颜色=红∧尺寸=小∧味道=酸) :鸟是否会飞翔 构建决策树过程 构建决策树 确定决策树增长的深度,避免过度拟合; 处理连续值的属性; 选择一个适当的属性筛选度量标准; 处理属性值不完整的训练数据; 处理不同代价的属性; 提高计算效率。 定义6.3 给定一个假设空间H和一个训练数据集D。对于一个假设h(h∈H),如果存在其它的假设h?(h?∈H),使得在训练数据集D上h的错误率小于h?的错误率,但是在全体可能数据集合上h的错误率大于h?的错误率。 那么假设h就过度拟合(Overfit)了训练数据D。 当训练数据采样太少,不能完全覆盖真实分布时,过度拟合很容易发生。 坏处: 当模型遇到非训练数据集中的数据时,干扰模型的判断结果,降低了最终精度。 严重影响模型的泛化能力,降低模型的实用性能。 决策树学习中的过度拟合表现 决策树结点过多,分支过深, 对训练数据可以完美分类, 但是对于非训练数据则精度下降。 决策树学习中有两种基本途径 及早停止树增长 在完美分类训练数据之前就终止学习。 后修剪法 先允许树过度拟合数据, 然后对过度拟合的树进行修剪 * * * * * * * * * * * * * 第六章 机器学习 6.1 概述 6.2 决策树学习 6.3 贝叶斯学习 6.4 统计学习 6.5 聚类 6.1.1 什么是机器学习? 学习是人类具有的一种重要智能行为,但究竟什么是学习,长期以来却众说纷纭。 关于“学习”这一概念的主要观点: 学习是系统改进其性能的过程。这是西蒙的观点。 西蒙的观点:学习就是系统在不断重复的工作中对本身能力的增强或者改进,使得系统在下一次执行同样任务或类似任务时,会比现在做得更好或效率更高。 学习是获取知识的过程。这是从事专家系统研究的人们的观点。 学习是技能的获取。这是心理学家的观点。 学习是事物规律的发现过程。 基本的学习形式有2种: 知识获取和技能求精。 例如,我们说某人学过物理。 我们的意思是,此人已经掌握了有关物理学的基本概念,并且理解其含义,同时还懂得这些概念之间以及它们与物理世界之间的关系。 一般地,知识获取可看作学习新的符号信息,而这些符号信息是以有效方式与应用这种信息的能力相适应的。 第二类学习形式是通过实践逐步改进机制和认知技能。 例如骑自行车或弹钢琴等等。 学习的很多过程都是由改进所学的技能组成。这些技能包括意识的或者机制的协调,而这种改进又是通过反复实践和从失败的行为中纠正偏差来进行的。 知识获取的本质可能是一个自觉的过程,其结果产生新的符号知识结构和智力模型。而技能求精则是下意识地借助于反复实践来实现的。人类的学习一般表现尾这两种活动的结合。 至今,还没有统一的“机器学习”定义,而且也很难给出一个公认的和准确的定义。一般认为机器学习是研究如何使用机器来模拟人类学习活动的一门学科。 最早的具有学习能力的程序: 1959年美国的塞缪尔(Samuel)设计了一个下棋程序,这个程序具有学习能力,它可以在不断的对奕中改善自己的棋艺。4年后,这个程序战胜了设计者本人。又过了3年,这个程序战胜

文档评论(0)

151****0104 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档