- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
最大后验概率每个bootstrap样本中
最大后验概率每个bootstrap样本中
HYPERLINK 121
最大后验概率每个bootstrap样本中
模型采选的一些根基思想和方法0. 引言
有监视研习是日常使用最多的建模范式,它有许多更整体的名字,比方预测模型、回归模型、分类模型或者分类器。这些名字或开头统计,或开头于机器研习。关于统计研习与机器研习的区别依然有不少筹商,不少人以为机器研习偏重于方针预测,而统计研习偏重于机制理解和建模。私人加倍直观的理解是,统计研习偏重于从概率散布来描述数据生成机制,除了预测之外,还关怀结果(参数假定、误差散布假定)的检验,而机器研习偏重于从函数拟合角度来描述数据生成机制,根基目的就是为了拟合和预测,贫乏严密的参数、误差的检验机制,比方下式:
Y = f(X) + \epsilon
1.统计研习方针是获取$Pr(Y|X)$的条件散布,经过对数据概率生成机制的理解与建模进而获取优异的预测效果,这个历程会触及$Xand Yand\epsilon$的散布假定,于是乎末了会衍生出对参数假定和误差散布的假定检验,以考证整个概率散布的假定的无误性,比方典范的线性模型、非参数回归等模型,预测能力并不是其主要目的;2.而机器研习根基不会从概率散布的角度着手,固然可能也会触及$XandY$的散布假定,但目的就是研习到一个能够较好描述数据生成机制的函数$f$,对误差的假定根基怠忽,也不会触及参数和误差的检验,模型好坏根基由预测效果来占定,同时也会提供一些角力计算寻常的误差上界,所以机器研习中不会出现参数揣度渐进性、一致性等结果的筹商,而多半最终结果的评判。比方SVM、神经网络、KNN等模型。
不过纵然有上述区别,关于高维统计推断(Lbut nonetheless andto类带正则项的线性模型)的实际也逐渐完整,但绝对待保守的生物制药、生物实验、社会访问、经济分析等领域,此刻图像、文本、保举编制等应用领域中,人们更关怀模型的预测能力,而不是注释能力以至是模型的确实性,主要原因即这些领域模型预测能力相比于模型的假定检验要紧张得多,于是乎如何根据模型预测能力来采选最优模型变得越来越紧张。本文下面就渐渐先容模型采选的思绪和方法,主要参考。
1. 偏移、方差、纷乱度和模型采选
模型的预测能力通常也被称作模型的泛化能力,表示模型在新的、独立的测试数据上的预测能力。在很多关于模型泛化能力的先容中,我们总会看到这样一幅图:模型在教练集上的教练误差与在测试集上的测试误差的变化趋向对比。
图上横轴表示模型的纷乱度大小(比方线性模型中特征维度大小),纵轴表示预测误差,量度预测值与真实值间的平均丧失大小$E(L(Yand\hat their{f}(X)))$,丧失函数根据分类、回归题目做合适的采选,比方0-1丧失、负似然函数、平方丧失、对数丧失、指数丧失、交错熵丧失、Hinge丧失等。平均丧失大小在教练集上预测误差称作教练误差,在测试集上称作测试误差。图中每一条线都表示同一个教练集(浅蓝色)和测试集(浅赤色)上的预测误差表示,大乐透中奖概率。从图上可以看到两个形象
*教练误差(浅蓝色)和测试误差(浅赤色)都有震荡,并不是一个稳定的值,并且随着模型纷乱度的增加,教练误差(浅蓝色)震荡越来越小,而测试误差(浅赤色)震荡则越来越大;*随着模型纷乱度增加,教练误差(浅蓝色)安乐均教练误差(粗蓝线)越来越小,但测试误差(浅赤色)安乐均测试误差(粗红线)先消沉后减小,在绝对中心的职位有一个最小值。
看到这下面的形象,我们的脑中可能会冒出下面几个题目:
1. 为什么教练误差和测试误差会有震荡?
2. 教练误差和测试误差的变化趋向说明了什么题目?
3. 造成这种变化趋向的原因是什么?
4. 这种趋向对模型的采选和评价有什么指导意义?
这四个题目由浅入深,最终目的就是想获取泛化能力最好和最稳定的预测模型。在答复这四个题目前,我们首先必要做一个假定:模型能够较好的预测,说明预测集与教练集有较好的相似性,更严肃来说,很可能开头于同一散布,下文做分析时均假定开头于同一总体散布。借使测试集绝对待教练集发生了庞杂的变化,那么从教练到预测的思绪将不可行。下面我们渐渐来解答这四个题目。
1.1 为什么教练误差和测试误差会有震荡?
现假定我们有个研究项目,想根据学生的平日表示和天资的$p$个目标$X$来预测最终该学生的期末分析收获$Y$。为到达这个目的,我们在一个学校中我们随机抽了一批学生,选用某个模型教练,揣度其模型参数,然后找一批新的学生预测来评价模型好坏,创造预测误差的绝对误差至极小。但是通常人们会问,这个模型预测能力真的那么好么?我咋不自信根据学生平日表示和天资就可以取得这么好
您可能关注的文档
最近下载
- 售后服务体系、流程及售后保障措施.docx VIP
- 北师版初中心理健康七年级全一册第一课翻开新的一页开启新学期课.pptx VIP
- 注塑生产排程月计划(ASDJS)自动排程.xls VIP
- QCT484-1999 汽车油漆涂层.pdf VIP
- 《影视后期合成》教案全套项目1--11 初识After Effects--渲染输出.docx VIP
- SAP物料分类账操作详解(S4系统).doc VIP
- 人教版小学数学四年级上册第六单元《用五入法试商的除法》PPT课件.pptx VIP
- 云南硅pu篮球场施工方案.docx VIP
- 学生牛奶糕点配送项目供货保障措施方案.docx VIP
- 课件中国现代文学史下.pptx VIP
文档评论(0)