01学习问题的表示.pptVIP

下载本文档

3
0
约3.87千字
约 34页
2017-05-21 发布于四川
举报
版权申诉

01学习问题的表示.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

统计学习理论 Chapt 1: 学习问题的表示 Outline 函数估计模型风险最小化问题三种主要的学习问题学习问题的一般表示经验风险最小化归纳原则学习理论的四个部分非正式推导和评述——1 函数估计模型样本学习的一般模型产生器G, F(x) 训练器S, F(y︱x) 学习机器LM,函数集f(x,a) 学习问题的目的从给定的函数集f中选出能够最好地逼近训练器响应的函数；训练集F(x,y)= F(x) F(y︱x) 由（x1y1），… （xmym）组成风险最小化问题损失函数风险泛函目的：使得风险泛函最小的函数三种主要的学习问题模式识别训练器的输出为0/1 f(x,?), ???为指示函数集损失函数分类错误学习问题：在概率测度F(x,y)未知，但是训练数据已知情况下，寻找使分类错误的概率最小的函数三种主要的学习问题回归估计训练器的输出实数值 f(x,?), ???为实数函数回归函数损失函数学习问题：在概率测度F(x,y)未知，但是训练数据已知情况下，对采用平方误差损失函数的风险泛函最小化三种主要的学习问题密度估计密度函数集ｐ(x,?), ??? 损失函数学习问题：在相应的概率测度F(x,y)未知，但是给出了独立同分布数据x1……xl的情况下，使风险泛函最小化学习问题的一般表示定义在空间Z上的概率测度F(z) 函数的集合Q(z,?), ??? 独立同分布样本z1……zl 风险泛函经验风险最小化归纳原则 ERM归纳原则经验风险泛函用使得经验风险最小的函数Q(z,?l)来逼近使风险泛函最小的函数Q(z,?0) 经验风险最小化归纳原则 ERM原则的体现最小二乘方法最大似然方法（等价）学习理论的四个部分研究的四个问题一个基于ERM原则的学习过程具有一致性的条件（充分必要条件）是什么？这个学习过程收敛的速度有多快？如何控制这个学习过程的收敛速度（推广能力）？怎样构造能够控制推广能力的算法？学习理论的四个部分四个理论学习过程一致性理论学习过程收敛速度的非渐近理论控制学习过程的推广能力的理论构造学习算法的理论非正式推导和评述——1 解决学习问题的传统模式密度估计的非参数方法用有限数量信息解决问题的基本原则基于经验数据的风险最小化模型随机逼近推理非正式推导和评述——1 第一章中给出的学习问题的表示反映了两个主要的要求： (1)从一个宽的函数集合中估计待求的函数； (2)在有限数量的例子的基础上估计待求的函数。在(创建于20年代和30年代的)传统理论体系中发展起来的方法没有考虑到这些要求。因此，在60年代，人们在两个方向上进行了很大的努力，一是把传统的结果推广到范围更宽的函数集合，二是针对小样本数目改进已有技术。下面我们将对其中的一些研究进行订论。密度估计问题（最大似然方法）在传统理论体系的框架中，函数估计的所有模型都是基于最大似然方法的。它成了传统体系下的一个归纳引擎。密度估计问题（最大似然方法）问题的描述设p(x,?), ???,是一个函数密度集合，设未知的密度p(x,?0)属于这个函数集合独立同分布数据：x1……xl 最大似然方法在20年代，Fisher(1952)研究出了估计密度函数的未知参数的最大似然方法，提出用使泛函最大的参数取值来逼近未知的参数。模式识别（判别分析）问题 Fisher的模型---- 存在两类数据两个不同的密度p1(x,?*)， p2(x,?*) 设第一类数据出现的概率为q1 第二类出现的概率为1-q1 决策规则: 使错误的概率最小模式识别（判别分析）问题 Fisher的模型---- 存在两类数据两个不同的密度p1(x,?*)， p2(x,?*) 设第一类数据出现的概率为q1 第二类出现的概率为1-q1 决策规则: 使错误的概率最小模式识别（判别分析）问题决策规则: 使错误的概率最小如果知道这两个统计规律和概率q1的值，可以立即构造出这样一个规则：若向量x属于第一类的概率不小于它属于第二类的概率，决策规则就认为这个向量属于第一类。这个决策规则可以取得最小的错误率。所谓x属于第一类的概率不小于它属于第二类的概率、就是下面的不等式成立：模式识别（判别分析）问题这一决策规则可以表示成下面的等价形式：称作判别函数(判别规则)，它把第一类的样本赋值为1，而把第二类样本赋值为-1；为了得到这一判别函数，必须估计两个概率密度：p1(x,?*)和 p2(x,?*)；在传统的体系中，人们用最大似然法来估计这两个密度中的参数?*和?* 。回归估计模型在传统体系中，回归估计是建立在另