机器学习复习总结.docVIP

下载本文档

172
0
约4.52千字
约 7页
2017-07-22 发布于重庆
举报
版权申诉

机器学习复习总结.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习复习总结

第一章基本设计方法和学习途径选择训练经验选择目标函数选择目标函数的表示选择函数逼近算法最终设计选择训练经验第一个关键属性，训练经验能否为系统的决策提供直接或间接的反馈第二个重要属性，学习器在多大程度上控制样例序列第三个重要属性，训练样例的分布能多好地表示实例分布，通过样例来衡量最终系统的性能最终设计执行系统用学会的目标函数来解决给定的任务鉴定器以对弈的路线或历史记录作为输入，输出目标函数的一系列训练样例。泛化器以训练样例为输入，产生一个输出假设，作为它对目标函数的估计。实验生成器以当前的假设作为输入，输出一个新的问题，供执行系统去探索。第二章一致，满足，覆盖的定义：一致：一个假设h与训练样例集合D一致，当且仅当对D中每一个样例x,c(x)都有h(x)=c(x)，即Consistent(h,D)(((x,c(x)(D)h(x)=c(x) 一个样例x在h（x）=1时称为满足假设h，无论x是目标概念的正例还是反例。当一假设能正确划分一个正例时，称该假设覆盖该正例。变型空间（version space）：与训练样例一致的所有假设组成的集合，表示了目标概念的所有合理的变型，VS H,D={h(H|Consistent(h,D)} 第三章决策树适用问题的特征：实例由“属性-值”对(pair)表示目标函数具有离散的输出值可能需要析取的描述训练数据可以包含错误训练数据可以包含缺少属性值的实例 ID3算法特点：搜索完整的假设空间（也就是说，决策树空间能够表示定义在离散实例上的任何离散值函数）从根向下推断决策树，为每个要加入树的新决策分支贪婪地选择最佳的属性。归纳偏置，优先选择较小的树观察ID3的搜索空间和搜索策略，认识到这个算法的优势和不足假设空间包含所有的决策树，它是关于现有属性的有限离散值函数的一个完整空间维护单一的当前假设（不同于第二章的变型空间候选消除算法）不进行回溯，可能收敛到局部最优每一步使用所有的训练样例，不同于基于单独的训练样例递增作出决定，容错性增强 ID3和候选消除算法的比较 ID3的搜索范围是一个完整的假设空间，但不彻底地搜索这个空间候选消除算法的搜索范围是不完整的假设空间，但彻底地搜索这个空间 ID3的归纳偏置完全是搜索策略排序假设的结果，来自搜索策略候选消除算法完全是假设表示的表达能力的结果，来自对搜索空间的定义过度拟合：对于一个假设，当存在其他的假设对训练样例的拟合比它差，但事实上在实例的整个分布上表现得却更好时，我们说这个假设过度拟合训练样例定义：给定一个假设空间H，一个假设h(H，如果存在其他的假设h’(H，使得在训练样例上h的错误率比h’小，但在整个实例分布上h’的错误率比h小，那么就说假设h过度拟合训练数据导致过度拟合的原因 1.一种可能原因是训练样例含有随机错误或噪声 2.特别是当少量的样例被关联到叶子节点时，很可能出现巧合的规律性，使得一些属性恰巧可以很好地分割样例，但却与实际的目标函数并无关系避免过度拟合的方法特点及早停止树增长精确地估计何时停止树增长后修剪法被证明在实践中更成功避免过度拟合的关键：使用什么样的准则来确定最终正确树的规模，解决这个问题的方法有：训练和验证集法可用数据分成两个样例集合：训练集合，形成学习到的假设验证集合，评估这个假设在后续数据上的精度方法的动机：即使学习器可能会被训练集合误导，但验证集合不大可能表现出同样的随机波动验证集合应该足够大，以便它本身可提供具有统计意义的实例样本常见的做法是，样例的三分之二作训练集合，三分之一作验证集合错误率降低修剪(reduced-error pruning) 将树上的每一个节点作为修剪的候选对象修剪步骤删除以此节点为根的子树，使它成为叶结点把和该节点关联的训练样例的最常见分类赋给它反复修剪节点，每次总是选取那些删除后可以最大提高决策树在验证集合上的精度的节点继续修剪，直到进一步的修剪是有害的为止数据集分成3个子集训练样例，形成决策树验证样例，修剪决策树测试样例，精度的无偏估计如果有大量的数据可供使用，那么使用分离的数据集合来引导修剪规则后修剪(rule post-pruning) 步骤从训练集合推导出决策树，增长决策树直到尽可能好地拟合训练数据，允许过度拟合发生将决策树转化为等价的规则集合，方法是为从根节点到叶节点的每一条路径创建一条规则通过删除任何能导致估计精度提高的前件来修剪每一条规则按照修剪过的规则的估计精度对它们进行排序，并按这样的顺序应用这些规则来分类后来的实例第四章解决反向传