- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习复习总结
第一章
基本设计方法和学习途径
选择训练经验 选择目标函数 选择目标函数的表示 选择函数逼近算法 最终设计
选择训练经验
第一个关键属性,训练经验能否为系统的决策提供直接或间接的反馈
第二个重要属性,学习器在多大程度上控制样例序列
第三个重要属性,训练样例的分布能多好地表示实例分布,通过样例来衡量最终系统的性能
最终设计
执行系统 用学会的目标函数来解决给定的任务
鉴定器 以对弈的路线或历史记录作为输入,输出目标函数的一系列训练样例。
泛化器 以训练样例为输入,产生一个输出假设,作为它对目标函数的估计。
实验生成器 以当前的假设作为输入,输出一个新的问题,供执行系统去探索。
第二章
一致,满足,覆盖的定义:
一致:一个假设h与训练样例集合D一致,当且仅当对D中每一个样例x,c(x)都有h(x)=c(x),即Consistent(h,D)(((x,c(x)(D)h(x)=c(x)
一个样例x在h(x)=1时称为满足假设h,无论x是目标概念的正例还是反例。
当一假设能正确划分一个正例时,称该假设覆盖该正例。
变型空间(version space):与训练样例一致的所有假设组成的集合,表示了目标概念的所有合理的变型,VS H,D={h(H|Consistent(h,D)}
第三章
决策树适用问题的特征:
实例由“属性-值”对(pair)表示
目标函数具有离散的输出值
可能需要析取的描述
训练数据可以包含错误
训练数据可以包含缺少属性值的实例
ID3算法特点:
搜索完整的假设空间(也就是说,决策树空间能够表示定义在离散实例上的任何离散值函数)
从根向下推断决策树,为每个要加入树的新决策分支贪婪地选择最佳的属性。
归纳偏置,优先选择较小的树
观察ID3的搜索空间和搜索策略,认识到这个算法的优势和不足
假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间
维护单一的当前假设(不同于第二章的变型空间候选消除算法)
不进行回溯,可能收敛到局部最优
每一步使用所有的训练样例,不同于基于单独的训练样例递增作出决定,容错性增强
ID3和候选消除算法的比较
ID3的搜索范围是一个完整的假设空间,但不彻底地搜索这个空间
候选消除算法的搜索范围是不完整的假设空间,但彻底地搜索这个空间
ID3的归纳偏置完全是搜索策略排序假设的结果,来自搜索策略
候选消除算法完全是假设表示的表达能力的结果,来自对搜索空间的定义
过度拟合:
对于一个假设,当存在其他的假设对训练样例的拟合比它差,但事实上在实例的整个分布上表现得却更好时,我们说这个假设过度拟合训练样例
定义:给定一个假设空间H,一个假设h(H,如果存在其他的假设h’(H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’的错误率比h小,那么就说假设h过度拟合训练数据
导致过度拟合的原因
1.一种可能原因是训练样例含有随机错误或噪声
2.特别是当少量的样例被关联到叶子节点时,很可能出现巧合的规律性,使得一些属性恰巧可以很好地分割样例,但却与实际的目标函数并无关系
避免过度拟合的方法 特点
及早停止树增长 精确地估计何时停止树增长
后修剪法 被证明在实践中更成功
避免过度拟合的关键:使用什么样的准则来确定最终正确树的规模,解决这个问题的方法有:
训练和验证集法
可用数据分成两个样例集合:
训练集合,形成学习到的假设
验证集合,评估这个假设在后续数据上的精度
方法的动机:即使学习器可能会被训练集合误导,但验证集合不大可能表现出同样的随机波动
验证集合应该足够大,以便它本身可提供具有统计意义的实例样本
常见的做法是,样例的三分之二作训练集合,三分之一作验证集合
错误率降低修剪(reduced-error pruning)
将树上的每一个节点作为修剪的候选对象
修剪步骤
删除以此节点为根的子树,使它成为叶结点
把和该节点关联的训练样例的最常见分类赋给它
反复修剪节点,每次总是选取那些删除后可以最大提高决策树在验证集合上的精度的节点
继续修剪,直到进一步的修剪是有害的为止
数据集分成3个子集
训练样例,形成决策树
验证样例,修剪决策树
测试样例,精度的无偏估计
如果有大量的数据可供使用,那么使用分离的数据集合来引导修剪
规则后修剪(rule post-pruning)
步骤
从训练集合推导出决策树,增长决策树直到尽可能好地拟合训练数据,允许过度拟合发生
将决策树转化为等价的规则集合,方法是为从根节点到叶节点的每一条路径创建一条规则
通过删除任何能导致估计精度提高的前件来修剪每一条规则
按照修剪过的规则的估计精度对它们进行排序,并按这样的顺序应用这些规则来分类后来的实例
第四章
解决反向传
您可能关注的文档
最近下载
- 九年级数学秋季开学第一课(北师大版).pptx
- 部编人教版八年级上册道德与法治全册新质教学课件(配2025年秋改版教材).pptx
- 第1讲 我爱你中国(第一课时)美丽中国是我家(课件)-《新时代中国特色社会主义思想学生读本(小学低年级)》.pptx VIP
- 大学毕业论文_外文文献及中文翻译-财务风险的重要性how important is financial risk.doc VIP
- 人美版(2024)一年级美术上册第一单元《1.1介绍我自己》教学设计.docx VIP
- 民警进幼儿园安全讲课.pptx VIP
- 2024全国职业院校技能大赛ZZ055导游服务赛项规程+赛题 (2).docx VIP
- 计算机网络基础 龚娟 第2章 数据通信基础.ppt VIP
- 沙田柚种植技术最新完整版本.pptx VIP
- DBJ52_T103-2021:模块化箱式房屋安装及验收技术标准.pdf VIP
文档评论(0)