- 1、本文档共80页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第一章概率统计基础
“模型”我们说的“模型”有时指的是模型类别 ,例如所有2个高斯的混合模型和所有3个高斯的混合模型。有时也指在一个类别的模型中的一员,如参数 的值为特定值。也就是说,模型的类别是固定的,而考虑的是不同的参数值。在实际应用中,我们通常同时考虑上述两种情况,也就是说:参数 的选择统计决策理论部分已经讨论 ,在此主要讨论不同函数族的选择
Occams razor William of Occham (1285–1348)from wikipediaOccams razor: Entia non sunt multiplicanda praeter necessitatem Or: Entities should not be multiplied unnecessarily —— the explanation of any phenomenon should make as few assumptions as possible, eliminating, or shaving off, those that make no difference in the observable predictions of the explanatory hypothesis or theory.
Occams razor例:树后面有多少个盒子?√
模型选择训练数据既包含输入—输出之间的规律也包含噪声模型匹配时会匹配上述两种情况如果模型太复杂,会将噪声也包含在模型中所以,好的模型足够对输入—输出之间的规律建模不够对噪声建模(假设噪声较弱)
一个回归的例子 样本数n = 10用M阶多项式拟合:
一个回归的例子(2)0阶多项式拟合
一个回归的例子(3)1阶多项式拟合
一个回归的例子(4)3阶多项式拟合
一个回归的例子(5)9阶多项式拟合
一个回归的例子(6) 过拟合:
一个回归的例子(7) 回归系数:
一个回归的例子(8)9阶多项式拟合,训练样本数n=15
一个回归的例子(9)9阶多项式拟合,训练样本数n=100
一个回归的例子(10)岭回归:最小化
一个回归的例子(11)岭回归
一个回归的例子(12)岭回归
一个回归的例子(13)岭回归系数
目标模型选择:估计不同模型的性能,选出最好的模型模型评估:已经选定最终的模型,估计它在新数据上的预测误差(泛化误差)提升模型的性能:模型平均BaggingBoost…教材第8章
模型选择和模型评估当样本足够多时,可以将数据分成三份训练集:估计模型的参数校验集:估计模型的预测误差测试集:计算最终选定的模型的泛化误差但通常没有足够多样本,而且也很难说明多少足够数据是足够的依赖于基础数据的信噪比和模型的复杂程度训练集校验集测试集
模型选择目标:选择使测试误差最小的模型M,称为模型选择。
训练误差与测试误差测试误差,亦称泛化误差(generalization error ),是在与训练数据同分布的独立测试样本上的风险(平均损失):亦称期望风险训练误差是在训练样本上的平均损失:亦称经验风险
训练误差与测试误差目标是选择测试误差最小的模型但测试误差很难计算/估计用训练误差估计但训练误差是测试误差的欠估计在选择合适复杂性的模型时,存在偏差-方差的平衡训练误差的乐观性
训练误差与测试误差经验风险/训练误差是否是期望风险/测试误差的一个好的估计?随样本集容量n→∞渐进成立在小样本条件下,并不是一个好的估计训练误差是测试误差的欠估计(有偏估计)训练误差的乐观性
训练误差的乐观性通常我们有因此,为了选择模型,我们可以对 进行估计,或以某种方式估计R(M)欠拟合程度 + 复杂性惩罚
训练误差的乐观性估计预测误差的方法估计乐观性,然后与训练误差 相加AIC/BIC/MDL等(模型与参数为线性关系时)SRM直接估计测试误差 交叉验证/bootstrap对任意损失函数、非线性自适应拟合技术都适用
估计乐观性通过各种技巧(通常是渐近性)估计乐观性
Mallows Cp 统计量 统计量: 使用所有特征的模型
AIC:Akaike Information Criterion当采用log似然作为损失函数,测试误差为其中 为MLE,模型为 ,似然函数为则训练误差为其中 为在训练集上的log似然。i为测试集上数据索引
AIC:Akaike Information Criterion当 时,其中这导出R(M)的一个估计: AIC其中 为从一个低偏差(复杂的)估计的MSE获得。(高斯模型时,对数似然与平方误差损
您可能关注的文档
- 《aoouiu》公开课课件学习.ppt
- 公开课Unit8Whenisyourbirthday学习分析.ppt
- 尝试对生物进行分类.ppt
- 成年早期个体的心理发展.ppt
- 当家的后母母亲.ppt
- 第八节巴氏杆菌病.ppt
- 第十六章蛋白质生物合成.ppt
- 第五章汽车运输成本管理上.ppt
- 电力供电局安全教育.ppt
- 电气安全技术(理论)培训教材.ppt
- 中美高中化学教材中先行组织者应用的比较与启示:基于概念与实践的双重审视.docx
- 可注射双层微球:制备工艺创新及长效抗骨关节炎机制与应用探究.docx
- 姜黄素对人宫颈癌HeLa细胞增殖的抑制作用及机制探究.docx
- 论政府职能转变与群众体育发展的内在逻辑与实践影响.docx
- 过氧化氢酶基因多态性:原发性高血压发病新视角与分子机制探究.docx
- 论公共危机事件中政府舆论引导力的构建与提升.docx
- 大豆异黄酮摄入与乳腺癌及前列腺癌发生风险的关联性探究——基于Meta分析的深度剖析.docx
- 探究糖尿病性勃起功能障碍与细胞凋亡及API5的内在关联.docx
- 泰国宋卡王子大学孔子学院文化教学活动:实践、挑战与发展路径.docx
- 以听说读为翼,促初中英语写作之翔:互动教学的理论与实践探索.docx
文档评论(0)