- 1、本文档共82页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模型选择
今天内容:模型选择 Occams razor 测试误差/训练误差 训练误差的乐观性估计 Mallows Cp 统计量 AIC BIC/MDL SRM 直接估计测试误差 交叉验证 Bootstrap “模型” 我们说的“模型”有时指的是模型类别 ,例如所有2个高斯的混合模型和所有3个高斯的混合模型。 有时也指在一个类别的模型中的一员,如参数 的值为特定值。也就是说,模型的类别是固定的,而考虑的是不同的参数值。 在实际应用中,我们通常同时考虑上述两种情况,也就是说: 参数 的选择统计决策理论部分已经讨论 ,在此主要讨论不同函数族的选择 Occams razor Occams razor 例:树后面有多少个盒子? 模型选择 训练数据 既包含输入—输出之间的规律 也包含噪声 模型匹配时会匹配上述两种情况 如果模型太复杂,会将噪声也包含在模型中 所以,好的模型 足够对输入—输出之间的规律建模 不够对噪声建模(假设噪声较弱) 一个回归的例子 一个回归的例子(2) 一个回归的例子(3) 一个回归的例子(4) 一个回归的例子(5) 一个回归的例子(6) 过拟合: 一个回归的例子(7) 回归系数: 一个回归的例子(8) 一个回归的例子(9) 一个回归的例子(10) 一个回归的例子(11) 一个回归的例子(12) 一个回归的例子(13) 岭回归系数 目标 模型选择:估计不同模型的性能,选出最好的模型 模型评估:已经选定最终的模型,估计它在新数据上的预测误差(泛化误差) 提升模型的性能:模型平均 Bagging Boost … 模型选择和模型评估 当样本足够多时,可以将数据分成三份 训练集:估计模型的参数 校验集:估计模型的预测误差 测试集:计算最终选定的模型的泛化误差 但通常没有足够多样本,而且也很难说明多少足够数据是足够的 依赖于基础数据的信噪比和模型的复杂程度 模型选择 训练误差与测试误差 测试误差,亦称泛化误差(generalization error ),是在与训练数据同分布的独立测试样本上的风险(平均损失): 亦称期望风险 训练误差是在训练样本上的平均损失: 亦称经验风险 训练误差与测试误差 目标是选择测试误差最小的模型 但测试误差很难计算/估计 用训练误差估计 但训练误差是测试误差的欠估计 在选择合适复杂性的模型时,存在偏差-方差的平衡 训练误差与测试误差 经验风险/训练误差是否是期望风险/测试误差的一个好的估计? 随样本集容量n→∞渐进成立 在小样本条件下,并不是一个好的估计 训练误差是测试误差的欠估计(有偏估计) 训练误差的乐观性 通常我们有 因此,为了选择模型,我们可以 对 进行估计,或 以某种方式估计R(M) 训练误差的乐观性 估计预测误差的方法 估计乐观性,然后与训练误差 相加 AIC/BIC/MDL等(模型与参数为线性关系时) SRM 直接估计测试误差 交叉验证/bootstrap 对任意损失函数、非线性自适应拟合技术都适用 估计乐观性 通过各种技巧(通常是渐近性)估计乐观性 Mallows Cp 统计量 统计量: AIC:Akaike Information Criterion 当采用log似然作为损失函数,测试误差为 其中 为MLE,模型为 ,似然函数为 则训练误差为 其中 为在训练集上的log似然。 AIC:Akaike Information Criterion 当 时, 其中 这导出R(M)的一个估计: AIC 其中 为从一个低偏差(复杂的)估计的MSE获得。 BIC :Bayesian Information Criterion 类似AIC,可用于极大化对数似然实现的拟合中 其中 所以 BIC: Motivation 用贝叶斯方法选择模型 回顾贝叶斯方法 为书写简单,记训练数据为 假设已知模型 的 的形式,参数 的贝叶斯估计为(见参数估计部分) 定义模型参数的先验分布: 和模型似然: 当有数据Z到达后,参数的分布(后验分布)变得更确定 贝叶斯方法与模型选择 给定一些列侯选模型 ,并且模型参数为 某个给定的模型的后验概率为: 表示模型的先验 表示证据(参数估计中的归一化因子) 为了比较两个模型,可以比较后验比: 如果比值 1,则选择第1个模型。 贝叶斯方法与模型选择
您可能关注的文档
- 机场外网媒体推介.ppt-无锡机场.ppt
- 李复言《定婚店》-台大开放式课程.doc
- 李明树演讲稿.ppt
- 李曲祥——含D-乙酰氨基葡萄糖和哌嗪的脲类化合物的合成及表征.doc
- 李瑶,湖北襄樊艺术学院表演系04级的学生,前不久去北京找剧组拍戏.ppt
- 杂唛时代.ppt
- 李若山课件《行政事业单位内部控制-审计处.ppt
- 材料参考品牌库管理合同.doc-深圳市住房和建设局.doc
- 材料中管制物质规范.doc
- 李殷欣组-tstss.edu.ppt
- 2025年初级银行从业资格之初级个人理财考试题库及答案【夺冠】.docx
- 2025年初级银行从业资格之初级个人理财考试题库及参考答案(预热题).docx
- 深圳大学高数课件—统计学指数深证成指.ppt
- 2025年初级银行从业资格之初级个人理财考试题库及完整答案(夺冠).docx
- 2025年初级银行从业资格之初级个人理财考试题库【真题汇编】.docx
- 2025年初级银行从业资格之初级个人理财考试题库及答案(名师系列).docx
- 2025年初级银行从业资格之初级个人理财考试题库【达标题】.docx
- 湘雅儿科课件Measl.ppt
- 2025年初级银行从业资格之初级个人理财考试题库【名校卷】.docx
- 2025年初级经济师之初级经济师基础知识考试题库(综合题).docx
最近下载
- 高二历史选修1重要课知识点.doc
- 九年级物理电学培优习题.doc VIP
- 2023-2024学年广东省深圳中学高二上生物期末质量检测试题含解析.doc VIP
- 交管12123学法减分复习题库500道(满分必刷).docx
- 2023-2024学年粤教版科学五年级上册教学计划(含教学进度表).pdf
- 初中数学计算能力提高的方法教学研究课题报告.docx
- AQ 1028-2006煤矿井工开采通风技术条件.pdf
- 小红书美妆产品社交电商分析.docx VIP
- 氯乙烯化工企业安全生产操作规程.pdf VIP
- 最新国家开放大学电大本科《数学分析专题研究》期末试题标准题库及答案(试卷号:1087).pdf
文档评论(0)