1svm简介-skiffer.pptVIP

下载本文档

12
0
约3.16千字
约 24页
2018-05-17 发布于四川
举报
版权申诉

1svm简介-skiffer.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

支持向量机(SVM)简介Support Vector Machine skiffer(id) IR-lab 2005.3.12 主要创造者：Vladimir N. Vapnik 时间：20世纪90年代在统计学习理论上产生解决的问题：研究有限样本情况下的学习机器的推广能力（在测试集上有很好的预测和判断）应用领域：各种模式识别、分类领域，图像图形、自然语言处理等等性能表现：在很多分类问题上都有非常好的表现数学理论支持：统计学习的理论（有完备的理论基础和严格的理论体系，而神经网络有更多的启发式成分）参考书籍：统计学习理论的本质从样本学习的一般模型参数解释 G：产生器，产生随机向量，它们是从固定但未知的概率分布函数F(x)中独立抽取的。表示此概率分布固定但是其函数形式未知。 S：训练器，对每个输入向量x返回一个输出值y，产生输出的根据是同样固定但未知的条件分布函数F(y|x)，对应于分类问题，把y看作是对应x的类别，把x看作是输入的特征向量。 LM：学习机器，它能够实现一定的函数集f(x, a)，其中表示参数集合。：表示 LM对输入x的响应学习的问题就是从给定的函数集f(x, a)，中选择能够最好逼近训练器响应的函数。这种选择是基于训练集的，训练集由根据联合分布F(x, y)=F(x)F(y|x)抽取出的l个独立同分布(i.i.d.)观测 (x1, y1)，…，(xl, yl) (1-1)组成。寻找能够最好逼近训练器响应的函数，也就是风险最小化函数，这是问题的关键所在。风险最小化问题为了选择所能得到的对训练器响应最好的逼近，就要度量在给定输入x下训练器响应y与学习机器给定的响应f(x, a)之间的损失或差异L(y, f(x, a))。考虑损失的数学期望值（1-2）学习的目标就是，在联合概率分布函数F(x,y)未知，所有可用的信息都包含在训练集(1-1)中，在函数集f(x, a)，中寻找使得(1-2)风险泛函最小的函数f(x,a0)。学习问题的一般表示学习问题可以一般地表示如下，设定义在空间Z上的概率测度F(z)，考虑函数的集合Q(z,a) ，学习的目的就是最小化泛函 (1-6) 其中概率测度F(z)未知，但是给出了一定的独立同分布样本（经验数据） z1,z2…zl (1-7) 通过定义不同的损失函数Q(z,a)，就能够得到不同的学习问题，例如模式识别，回归估计，密度估计等。经验风险最小化原则为了最小化(1-6)的风险泛函，可以采用下面的原则： Remp(a)= (1-8)代替R(a) ,也就是用均值代替了数学期望。用使经验风险(1-8)式最小的函数Q(z,al)逼近使风险(1-6)式最小的函数Q(z, a0)。两者合并起来就是，首先找到使(1-8)式最小的Q(z,al)，再用Q(z,al)逼近(1-6)式最小的函数Q(z, a0) 。这一原则称为经验风险最小化归纳原则（ERM原则）存在的问题经验风险(1-8)最小不等于期望风险(1-6)最小，不能保证分类器的推广能力，即不能取得小的实际风险。经验风险只有在样本数无穷大时才能趋向于期望风险，需要非常多的样本才能保证分类器的性能。需要找到经验风险和推广能力的平衡点。控制学习过程的推广能力完全非负函数集的学习机器推广能力的界： (4-1) 采用无界函数集的学习机器推广能力的界 (4-2) VC维定义函数集Q的VC维：能分开任意的n向量，但分不开某些n+1个向量分析以上不等式讨论以上不等式，只讨论(4-1)，等式左边表示最小的实际风险（度量推广能力的），右边第一项表示最小的经验风险，右边第二项叫做置信范围，它指的是用某个值（比如经验风险）来作为对另一个值(比如实际风险)的估计或近似所可能带来的误差上限(以一定的概率)。两种最小化不等式右边的构造性方法：（1）保持置信范围固定（通过选择一个适当构造的机器）并最小化经验风险。（神经网络）（2）保持经验风险最小（比如等于零）