- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2章PAC模型
弓I 言
PAC(Probably Approximate Correct)模型是由 Valiant 于 1984 年首先提出来的,
是由统计模式识别、决策理论提出了一些简单的概念并结合了计算复杂理论的方法而提
出的学习模型。它是研究学习及泛化问题的ー个概率框架,不仅可用于神经网络分类问
题,而且可广泛用于人工智能中的学习问题。PAC模型的作用相当于提供了一套严格的
形式化语言来陈述以及刻画所提及的Learnability以及Sample Complexity问题。在
PAC框架下,学习者接收样品并且必须从某一特定类可能的函数中选择ー个泛化函数
(称为假设) 。我们的目标是,以很高的概率 (Probably部分),所选择的函数将具有低泛
化误差(Approximately Correct部分) 。给出样本的任意逼近比、成功概率或分布时,学
习者必须能够学习出该概念。PAC框架的ー项重要创新是机器学习计算复杂性理论概
念引人,学习者预期找到更有效的函数,学习者本身必须实现ー个高效的程序。
本章将主要介绍基本PAC模型,并进ー步讨论在有限空间和无限空间下样本复杂度
问题。本文中的讨论将限制在学习布尔值概念,且训练数据是无噪声的(许多结论可扩展
到更一般的情形)。
2.1 基本的PAC模型
2.1.1 PAC 简介
PAC主要研究的内容包括:一个问题什么时候是可被学习的,样本复杂度,计算复
杂度以及针对具体可学习问题的学习算法。虽然也可以扩展用于描述回归以及多分类等
问题,不过最初的PAC模型是针对二分类问题提出来的,和以前的设定类似,我们有ー
个输人空间X,也称作实例空间。X上的一个概念c是X的ー个子集,或者简单来说,c
是从X到{0,1}的函数,显然,c可以用所有函数值等于1的那些点fHl)来刻画,那些
点构成X的ー个子集,并且“子集 ”和“函数”在这里是一一对应的。这里也采用这种模
型,先介绍ー下这种情況下的ー些特有的概念。
2.1.2基本概念
实例空间指学习器能见到的所有实例,用a指示每个大小为《的学习问题的实例
集,每个z e X为ー个实例,X U„ 1, x„为实例空间。概念空间指目标概念可以从中
I第2章
选取的所有概念的集合,学习器的目标就是要产生目标概念的一个假设ん,使其能准确地
分类每个实例,对每个n 1,定义每个C„ G 2 〜为上的一系列概念,C = 1,C„
为X上的概念空间,也称为概念类。假设空间指算法所能输出的所有假设/^的集合,用
h表示。对每个目标概念cea和实例ズ e为实例:c上的分类值,即cu)=
1当且仅当ze ac„的任ー假设み指的是ー规则,即对给出的: ceん,算法在多项式时
间内为c u)输出ー个预测值。变型空间指能正确分类训练样例d的所有假设的集合,
▽3=^6 HI v :r,C(;0eD(ん(;〇 C(;〇)}。变型空间的重要意义是每个一致
学习器都输出ー个属于变型空间的假设。样本复杂度指学习器收敛到成功假设时至少所
需的训练样本数。计算复杂度指学习器收敛到成功假设时所需的计算量。出错界限指在
成功收敛到一个假设前,学习器对训练样本的错误分类的次数。在某一特定的假设空间
中,对于给定的样本,若能找到ー个假设A,使得对该概念类的任何概念都一致,且该算法
的样本复杂度仍为多项式,则该算法为一致算法。
2.1.3问题框架
实例空间为x= {0,1}”,概念空间和假设空间均为 {0,1}的子集,对任意给定的准
确度e (〇 e 1/2)及任意给定的置信度5 (0 5 1 ),实例空间上的所有分布D及
目标空间中的所有目标函数し若学习器L只需多项式P («,1ん,1/«个样本及在多项
式p («,i/e,i/ぶ)时间内,最终将以至少的概率输出一个假设a e h,使得随机
样本被错分类的概率errobO^)=ル[U e XAU)尹iOr)}] く e,则称学习器L是
PAC可学习的,它是考虑样本复杂度及计算复杂度的ー个基本框架,成功的学习被定义
为形式化的概率理论。
文档评论(0)