- 1、本文档共48页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
用布利冈影响函数对核方法的交叉验证的有效近似
交叉验证简介: 交叉验证是一种没有任何前提假定直接估计泛化误差的模型选择的方法,由于没有任何假定,可以应用于各种模型中,因此,具有应用的普遍性,又由于其操作的简便性,被人们认为是一种行之有效的模型选择方法。 交叉验证的产生是一个曲折的过程,首先人们发现同一数据集既进行模型训练又进行泛化误差的估计会产生一个较差的结果,也就是我们常说的训练误差估计的乐观性,为了克服这个问题,人们提出了交叉验证的方法,它的基本思想是将数据分为两部分,一部分数据用来进行模型的训练,通常我们叫做训练集,另一部分数据用来测试训练生成模型的误差,我们叫做测试集,这样的泛化误差的估计可以更接近真实的泛化误差. 在数据足够的情况下,我们可以很好估计出真实的泛化误差。但是在实际应用中,往往只有有限的数据可用,我们必须对数据进行重用,对数据进行多次切分来得到好的估计。自从交叉验证提出以后,人们提出不同的数据切分方式,因此产生了多种形式的交叉验证方法,下面我们对常用的交叉验证方法做一个简单的介绍。Hold-out:最早由Devroye和Wagner提出,主要思想是将数据集进行一次切分,一部分用来做训练模型,另一部分用来测试,这是最简单的一种方法,也是交叉验证的雏形。下面我们用数学语言进行描述,通常设 为集合Dn={1,2,…,n}的非空子集, 为其补集,我们用 作为训练集来进行模型训练,Iv作为测试集来进行泛化误差的估计,这种方法通常只对数据进行一次随机切分,训练生成的模型用A(Dn)表示,最后泛化误差的估计为:其中, 为训练样本,nv为测试样本个数,L为损失函数。其实严格意义来说Hold-Out方法并不能算是CV,因为这种方法没有达到交叉的思想,由于是随机的将原始数据分组,所以最后验证集分类准确率的高低与原始数据的分组有很大的关系,所以这种方法得到的结果其实并不具有说服性.留一交叉验证:其基本思想是每次从个数为N样本集中取出一个样本作为验证集,剩下N-1个样本作为训练集,重复进行N次,依次取遍所有N个数据作为验证集,最后将平均的N个数据的结果作为泛化误差的估计。用数学语言描述为;设有样本量N的数据集DN,第j次取出样本记为 ,DN(-j)表示除去样本 后剩下的数据,最后的泛化误差估计定义为:其中,L为损失函数。留一交叉验证有两个明显的优点:a.每一回合中几乎所有的样本皆用于训练模型,因此最接近原始样本的分布,这样评估所得的结果比较可靠;b.实验过程中没有随机因素会影响实验数据,确保实验过程是可以被复制的。其缺点是:重复次数相对来说较大,在计算上比较耗时,所以在计算复杂度上没有什么优势。k折交叉验证(kCV):这种方法首先是把数据集平分为k份,每次从k份数据集中拿出一份数据集作为验证集,剩下的k-1份数据集作为训练集,重复进行k次,最后平均k次结果作为最后泛化误差的估计。用数学语言描述为:设有一样本量为n的数据集Dn,A1,…,Ak为数据集Dn的子集,且对于任意子集Aj都有M(Ai)≈n/k, M(Ai)为子集中样本的个数,最后的泛化误差估计为:其中L为损失函数, 为除去子集Aj后剩下的样本,s为训练得到的模型。在kn的情况下,k折交叉验证比留一交叉验证要简单的多,因此,k折交叉验证在实际应用中是一种人们普遍使用的模型选择方法。在利用交叉验证进行模型选择时,一般选择使得泛化误差估计最小的模型。用布利冈影响函数(BIF)对核方法的交叉验证的有效近似本文结构第一部分:背景介绍;第二部分:介绍一些基本事实;第三部分:引进布利冈影响函数(BIF),并给出一个新方法近似交叉验证误差;第四部分:介绍一个计算BIF和高阶BIF的方法;第五部分:如何利用这些BIF去近似交叉验证估计;第六部分:实证分析我们所提出的近似交叉验证这个标准的性能;第七部分:结论摘要模型的选择是近代核方法的研究与应用的关键问题。交叉验证是被普遍采用且广泛接受的一个模型选择的标准。然而,交叉验证要求对考虑的算法进行多次训练,这是密集的计算。这一篇文章,介绍一个新的方法用于近似交叉验证,基于布利冈影响函数,其只要求解一次算法。BIF 测量一个无穷小的污染的初始分布的影响。我们首先建立BIF与交叉验证的联系。BIF与泰勒展开式的一次项有关,从而我们计算BIF和更高阶的BIF,并应用这些理论成果去近似交叉验证的误差。试验结果证明,我们的近似交叉验证这个标准是充分且有效的。什么是核方法?核方法的基本原理是:在非线性可分的情况下,使用一个非线性变换 将输入模式空间R中的数据映射到高维特征空间F中,即 ,在F中基于新的分类函数,达到线性可分的目的。不必明确知道非线性变换的具体表达式,只要用核函数代替内积运算即可,如下图所示。通常情况下,变换
文档评论(0)