第一章概率统计基础.ppt

下载文档 降价啦

1
0
约7.5千字
约 80页
2023-04-11 发布于广东
举报
版权申诉
保障服务

第一章概率统计基础.ppt

1、本文档共80页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第一章概率统计基础 “模型”我们说的“模型”有时指的是模型类别，例如所有2个高斯的混合模型和所有3个高斯的混合模型。有时也指在一个类别的模型中的一员，如参数的值为特定值。也就是说，模型的类别是固定的，而考虑的是不同的参数值。在实际应用中，我们通常同时考虑上述两种情况，也就是说：参数的选择统计决策理论部分已经讨论，在此主要讨论不同函数族的选择 Occams razor William of Occham (1285–1348)from wikipediaOccams razor: Entia non sunt multiplicanda praeter necessitatem Or： Entities should not be multiplied unnecessarily —— the explanation of any phenomenon should make as few assumptions as possible, eliminating, or shaving off, those that make no difference in the observable predictions of the explanatory hypothesis or theory. Occams razor例：树后面有多少个盒子？√ 模型选择训练数据既包含输入—输出之间的规律也包含噪声模型匹配时会匹配上述两种情况如果模型太复杂，会将噪声也包含在模型中所以，好的模型足够对输入—输出之间的规律建模不够对噪声建模（假设噪声较弱）一个回归的例子样本数n = 10用M阶多项式拟合：一个回归的例子（2）0阶多项式拟合一个回归的例子（3）1阶多项式拟合一个回归的例子（4）3阶多项式拟合一个回归的例子（5）9阶多项式拟合一个回归的例子（6）过拟合：一个回归的例子（7）回归系数：一个回归的例子（8）9阶多项式拟合，训练样本数n=15 一个回归的例子（9）9阶多项式拟合，训练样本数n=100 一个回归的例子（10）岭回归：最小化一个回归的例子（11）岭回归一个回归的例子（12）岭回归一个回归的例子（13）岭回归系数目标模型选择：估计不同模型的性能，选出最好的模型模型评估：已经选定最终的模型，估计它在新数据上的预测误差（泛化误差）提升模型的性能：模型平均BaggingBoost…教材第8章模型选择和模型评估当样本足够多时，可以将数据分成三份训练集：估计模型的参数校验集：估计模型的预测误差测试集：计算最终选定的模型的泛化误差但通常没有足够多样本，而且也很难说明多少足够数据是足够的依赖于基础数据的信噪比和模型的复杂程度训练集校验集测试集模型选择目标：选择使测试误差最小的模型M，称为模型选择。训练误差与测试误差测试误差，亦称泛化误差(generalization error )，是在与训练数据同分布的独立测试样本上的风险（平均损失）：亦称期望风险训练误差是在训练样本上的平均损失：亦称经验风险训练误差与测试误差目标是选择测试误差最小的模型但测试误差很难计算/估计用训练误差估计但训练误差是测试误差的欠估计在选择合适复杂性的模型时，存在偏差-方差的平衡训练误差的乐观性训练误差与测试误差经验风险/训练误差是否是期望风险/测试误差的一个好的估计？随样本集容量n→∞渐进成立在小样本条件下，并不是一个好的估计训练误差是测试误差的欠估计（有偏估计）训练误差的乐观性训练误差的乐观性通常我们有因此，为了选择模型，我们可以对进行估计，或以某种方式估计R(M)欠拟合程度 + 复杂性惩罚训练误差的乐观性估计预测误差的方法估计乐观性，然后与训练误差相加AIC/BIC/MDL等（模型与参数为线性关系时）SRM直接估计测试误差交叉验证/bootstrap对任意损失函数、非线性自适应拟合技术都适用估计乐观性通过各种技巧（通常是渐近性）估计乐观性 Mallows Cp 统计量统计量：使用所有特征的模型 AIC：Akaike Information Criterion当采用log似然作为损失函数，测试误差为其中为MLE，模型为，似然函数为则训练误差为其中为在训练集上的log似然。i为测试集上数据索引 AIC：Akaike Information Criterion当时，其中这导出R(M)的一个估计： AIC其中为从一个低偏差（复杂的）估计的MSE获得。（高斯模型时，对数似然与平方误差损