网站大量收购独家精品文档,联系QQ:2885784924

统计学基础建模.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计学基础建模

函数逼近 但测量会有误差? ,这样考虑统计模型的观点: 其中 且?为随机误差,与X独立 当有足够多的数据时,最小二乘能得到精确预测,并且我们能正确(偏差小)、精确(方差小)地预测任意外力下的形变 如果科学知识告诉我们应该应该选择非线性模型,如sigmoid模型,我们仍然可以用最小二乘法求解,只是计算可能稍复杂 经验告诉我们,当二元正态分布的相关系数为0.5时,意味着线性关系仍能工作得很好 事实上,有时候人们既没有从理论上,也没有从经验上分析就直接采用线性模型 函数逼近 更通用的做法是选择一个函数族,参数形式为 其中?为参数集合 ?可以用最小二乘法求解,也可以用更一般的极大似然法来求解 可能是一个封闭的解析解 也可能要通过数值计算的方法迭代计算得到 函数逼近 但可能我们选定的函数族中的任何函数都不能很好表示 f 如上述红绿点分类的例子中线性模型表现不够好,偏差太大 或者是选择函数族太灵活 如红绿点分类的例子中knn (k=1)时,估计不够好,因为估计利用的数据太少(只利用了k=1个点)方差太大 问题:如何选择合适的函数族? 增加结构约束 结构化的回归模型 对任意函数f,考虑RSS准则 任何通过 的函数的RSS=0:有无穷多个解 当测试数据与训练数据不同时,该函数可能是一个非常糟糕的预测 只有当n足够大时,样本均值才能趋于条件期望 为了得到对有限n有效的结果,需要将解限定在一个合理的较小函数集合:如参数模型 通常限制施加的是复杂性约束:通常这意味着在输入空间上小邻域上的规则,即对所有的输入点x,在某种度量下,它们都足够靠近, 显示出某种特殊的结构,如近似常数、线性或低阶多项式。 结构化的回归模型 约束的强度由邻域的大小决定:邻域越大,约束越强,并且解对约束的特定选择越敏感 knn:局部常数拟合 在无穷小的邻域中,局部常数拟合通常不再是约束 线性回归:全局线性拟合 在非常大的邻域中,局部线性拟合几乎是全局的线性模型,并且限制很强 局部线性回归:局部线性拟合 在邻域中用线性拟合 偏差—方差折中 如在knn回归中: 模型为 ,其中 则在点 处的期望误差(亦称测试误差/泛化误差) 当k变化时,在偏差-方差之间有一个折中 偏差为k的增函数,而方差为k的减函数 较小的k,模型较复杂,拟合精度高,偏差较小,但方差较大 模型选择:拟合精度与模型复杂度之间的平衡 当k较小时,训练误差较小,但测试误差一般较大 当k较大时,训练误差较大,但测试误差一般较小 模型选择 目标:测试误差最小 测试误差:用训练误差估计 但训练误差不是测试误差的一个很好估计,因为训练误差不能很好地解释模型的复杂性 过拟合区域 欠拟合区域 本章小结 有监督学习:给定训练数据 ,求使风险最小的 f,即 当损失为平方误差损失,结果为 实际求解时,只能利用训练样本的信息,用样本均值近似期望 但不能以训练误差作为标准,因为样本均值只能在大样本情况下才能逼近期望 目标为期望风险/测试误差最小,但测试集不可得,所以应该增加限制,即函数限制在一个合理的较小集合 不同的学习过程表现为对 施加不同的限制,这种限制通常为复杂性约束(在输入空间上小邻域上的规则) 模型选择:模型复杂度和训练误差之间的折中/偏差—方差折中 下节课内容 下节课内容:线性回归模型 [Wasserman] Chp13 [ESL] Chp3 第三部分实验 数据:前列腺癌数据 ESL一书中回归分析的主要数据用例 实验内容: 实现回归模型中的两种 线性回归:必选 岭回归 LASSO 核回归 局部线性回归 并选择合适复杂度的模型 AIC/BIC 交叉验证 bootstrap 前列腺癌数据 考察第9列的前列腺癌特殊抗原水平(lpsa: log prostate specific antigen) 与前8列临床指标之间的相关性 lcavol:log cancel volume (肿瘤体积) lweight:log prostate weight (前列腺重量) age:(年龄) lbph:log bengin prostatic hypcrplasia (良性前列腺增生量) svi:seminal vesicle invasion (精囊浸润) lcp:log of capsular penetration (包膜穿透) gleason:gleason score (Gleason积分) pgg45:percent of Gleason scores 4 or 5 ( Gleason4/5所占百分比 )

文档评论(0)

wuailuo + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档