学习问题和正则化.pdf

  1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
学习问题和正则化

学习问题和正则化 9.520 第二课,2003 年2 月10 日 Tomaso Poggio 和Ryan Rifkin 计 划 学习作为一种函数逼近问题 经验风险最小 适定性和一致性 正则化 附录:样本和逼近误差 关于此课程 主旨 我们将学习问题作为从稀疏数据中进行函数逼近的问题来介绍。首先,我们定义了损失函数、 经验误差和泛化误差。然后,我们介绍经验风险最小化方法和要应用该方法应具备的两个重要 条件:适定性和一致性。最后,我们介绍一个满足这两个条件的重要算法:Tikhonov 正则化。 数学要求 熟悉概率论的基本知识 服从概率分布的数据 我们假设X 和Y 是两个随机变量集。我们得到一个训练集S ,其包含l个来自于独立同分布的 X ×Y 的样本: x 我们将频繁使用y 对 的条件概率,记作p (y | x ) : 请务必注意我们将p (x , y ) 视为一个确定但未知的量。 概率设定 学习视作利用样本进行函数逼近:回归和分类 监督学习的基本目标是使用训练集S 来“学习”一个函数f S ,使得对于一个新的x 值xnew 可以 预测出相应的y 值: 如果y 是一个实值随机变量,我们称其为回归。 如果y 从一个无序有限集取值,我们称其为模式分类。对于两类模式分类问题,我们将一类的y 值指派为1,另一类的y 值指派为−1。 损失函数 为了衡量函数的好坏,我们需要一个损失函数V 。通常,给定x ,猜测得相应的y 值为f (x ) 而 实际的y 值应为y * ,我们使用V( f ( x), y*) 表示我们所付出的代价。 回归的常用的损失函数 对于回归,最常用的损失函数是平方损失或称L 2 损失: 我们也可以采用绝对值,或L1损失: Vapnik 的更一般的ε不敏感损失函数为: 对于分类所采用的常用的损失函数 对于二元分类,最直观的损失函数是0 −1 损失函数: 为了便于处理和其他原因,我们通常在二元分类中使用hinge 损失函数(由Vapnik 引入): 泛化误差和经验误差 对于给定的函数f 、损失函数V 和一个在X 和Y 上的概率分布P ,我们可以定义f 的期望误 差为: 当一个新的样本从上述分布中随机抽取时,这也是期望损失 (这里我们使用dµ来表示dP )。 我们希望I [f ]尽可能小,但通常而言,我们不知道P 。 V S 给定的函数f 、损失函数 和一个包含l个数据点的训练集 ,我们可以将f 的经验误差(或 风险)表达为: 假设空间 假设空间H 是我们使用算法进行搜寻的函数空间。通常,它根据可用数据量的大小进行选取。 经验风险最小化 给定一个训练集S 和一个函数空间 H,经验风险最小化(Vapnik )求得一个函数f S ,使得对于 所有的函数f ∈H,其经验风险最小: (我们假设这样的一个函数是存在的) 经验风险最小化的一致性和适定性 由于经验风险最小化在学习问题上是很有用的,所以其解必须是: 一致的 存在的、唯一的和“稳定的”(适定性) 经验风险最小化的一致性 一致性意味着随着训练样本数量的增加(即l→∞),I S [f S ]−I [f S ]必须趋近于0 。换句话说, 对于经验风险最小化的解,训练误差必须收敛于期望误差从而可以使用训练误差来代替期望误 差。否则这

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档