机器学习整理新.doc

下载文档 降价啦

10
0
约7.86千字
约 38页
2016-01-06 发布于安徽
举报
版权申诉
保障服务

机器学习整理新.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

机器学习整理新.doc

计算学习理论（书的第七章）概念传统的模式识别理论是以概率为1成立为基础 ?? PAC（probably approximately correct, 概率近似正确）认为机器学习应该以PAC为基础 ?? 统计学习理论（eg SVM）中的泛化理论以此为基础 ?? 弱可学习理论及集群（Ensemble）学习以此为理论基础 3． PAC可学习性概率近似（PAC）学习：首先只要求学习器输出错误率限定在某常数ε范围内的假设，其次要求对所有的随机抽取样例序列的失败的概率限定在某常数δ范围内 PAC可学习性的一个隐含的条件：对C中每个目标概念c，假设空间H都包含一个以任意小误差接近c的假设集群学习理论 ADABOOST 弱可学习的概念：通常指一个弱分类器，该分类器的性能仅仅比随机猜测稍好一点弱可学习定理：如果一个概念是弱可学习的，其必要条件是它是强可学习的。定理的证明过程是构造性的，??Boosting技术弱可学习定理的现实指导意义： ??意味着我们只需要设计一组弱分类器，并将它们集群起来，就可以构成一个强分类器集群机器学习： ??将若干弱学习器集成（提升）为一个强学习器的学习算法 The goal of a learning algorithm is to find a classifier with low generalization error. The underlying idea of Boosting is to combine simple “rules” to form an ensemble such that the performance of the single classifier is improved 学习算法的一个目标是找到一个分类器低泛化误差。来刺激基本思想是将简单的“规则“，形成一个合奏等该单分类器的性能得到改善 The main ideas of AdaBoost is to maintain a distribution or a set of weights over the training set. Initially, all weights are set equally, but on each round, the weights on misclassified examples are increased so that the weak learner is forced to focus on the hard samples in the training set. AdaBoost算法的主要思想的是保持一个或一组分布在训练的权重集。最初，所有的权重设置同样的，但在每一轮的权重上误判例子增多，使学习者被迫弱专注于训练集的硬样品。样本的权重没有先验知识的情况下，初始的分布应为等概分布，也就是训练集如果有N个样本，每个样本的分布概率为1/N 每次循环一后提高错误样本的分布概率，分错样本在训练集中所占权重增大，使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。 (2) 弱学习机的权重准确率越高的弱学习机权重越高 (3) 循环控制：损失函数达到最小在强学习机的组合中增加一个加权的弱学习机，使准确率提高，损失函数值减小。 ADABOOST计算步骤 ?? Step1: 原始训练集输入，带有原始分布 ?? Step2: 给出训练集中各样本的权重 ?? Step3: 将改变分布后的训练集输入已知的弱学习机，弱学习机对每个样本给出假设 ?? Step4: 对此次的弱学习机给出权重 ?? Step5: 转到Step2, 直到循环到达一定次数或者某度量标准符合要求 ?? Step6: 将弱学习机按其相应的权重加权组合形成强学习机 ADABOOST基本思想与一些结论（看实例）样本的权重 ?? 没有先验知识的情况下，初始的分布应为等概分布，也就是训练集如果有N个样本，每个样本的分布概率为1/N ?? 每次循环一后提高错误样本的分布概率，分错样本在训练集中所占权重增大，使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。弱学习机的权重 ?? 准确率越高的弱学习机权重越高循环控制：损失函数达到最小 ?? 在强学习机的组合中增加一个加权的弱学习机，使准确率提高，损失函数值减小。 Large margin property ?? AdaBoost algorithm is suited to the task of maximizing margin of training samples. That means the generation performance is good. AdaBoost算法