- 1、本文档共45页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计学基础建模
函数逼近 但测量会有误差? ,这样考虑统计模型的观点: 其中 且?为随机误差,与X独立 当有足够多的数据时,最小二乘能得到精确预测,并且我们能正确(偏差小)、精确(方差小)地预测任意外力下的形变 如果科学知识告诉我们应该应该选择非线性模型,如sigmoid模型,我们仍然可以用最小二乘法求解,只是计算可能稍复杂 经验告诉我们,当二元正态分布的相关系数为0.5时,意味着线性关系仍能工作得很好 事实上,有时候人们既没有从理论上,也没有从经验上分析就直接采用线性模型 函数逼近 更通用的做法是选择一个函数族,参数形式为 其中?为参数集合 ?可以用最小二乘法求解,也可以用更一般的极大似然法来求解 可能是一个封闭的解析解 也可能要通过数值计算的方法迭代计算得到 函数逼近 但可能我们选定的函数族中的任何函数都不能很好表示 f 如上述红绿点分类的例子中线性模型表现不够好,偏差太大 或者是选择函数族太灵活 如红绿点分类的例子中knn (k=1)时,估计不够好,因为估计利用的数据太少(只利用了k=1个点)方差太大 问题:如何选择合适的函数族? 增加结构约束 结构化的回归模型 对任意函数f,考虑RSS准则 任何通过 的函数的RSS=0:有无穷多个解 当测试数据与训练数据不同时,该函数可能是一个非常糟糕的预测 只有当n足够大时,样本均值才能趋于条件期望 为了得到对有限n有效的结果,需要将解限定在一个合理的较小函数集合:如参数模型 通常限制施加的是复杂性约束:通常这意味着在输入空间上小邻域上的规则,即对所有的输入点x,在某种度量下,它们都足够靠近, 显示出某种特殊的结构,如近似常数、线性或低阶多项式。 结构化的回归模型 约束的强度由邻域的大小决定:邻域越大,约束越强,并且解对约束的特定选择越敏感 knn:局部常数拟合 在无穷小的邻域中,局部常数拟合通常不再是约束 线性回归:全局线性拟合 在非常大的邻域中,局部线性拟合几乎是全局的线性模型,并且限制很强 局部线性回归:局部线性拟合 在邻域中用线性拟合 偏差—方差折中 如在knn回归中: 模型为 ,其中 则在点 处的期望误差(亦称测试误差/泛化误差) 当k变化时,在偏差-方差之间有一个折中 偏差为k的增函数,而方差为k的减函数 较小的k,模型较复杂,拟合精度高,偏差较小,但方差较大 模型选择:拟合精度与模型复杂度之间的平衡 当k较小时,训练误差较小,但测试误差一般较大 当k较大时,训练误差较大,但测试误差一般较小 模型选择 目标:测试误差最小 测试误差:用训练误差估计 但训练误差不是测试误差的一个很好估计,因为训练误差不能很好地解释模型的复杂性 过拟合区域 欠拟合区域 本章小结 有监督学习:给定训练数据 ,求使风险最小的 f,即 当损失为平方误差损失,结果为 实际求解时,只能利用训练样本的信息,用样本均值近似期望 但不能以训练误差作为标准,因为样本均值只能在大样本情况下才能逼近期望 目标为期望风险/测试误差最小,但测试集不可得,所以应该增加限制,即函数限制在一个合理的较小集合 不同的学习过程表现为对 施加不同的限制,这种限制通常为复杂性约束(在输入空间上小邻域上的规则) 模型选择:模型复杂度和训练误差之间的折中/偏差—方差折中 下节课内容 下节课内容:线性回归模型 [Wasserman] Chp13 [ESL] Chp3 第三部分实验 数据:前列腺癌数据 ESL一书中回归分析的主要数据用例 实验内容: 实现回归模型中的两种 线性回归:必选 岭回归 LASSO 核回归 局部线性回归 并选择合适复杂度的模型 AIC/BIC 交叉验证 bootstrap 前列腺癌数据 考察第9列的前列腺癌特殊抗原水平(lpsa: log prostate specific antigen) 与前8列临床指标之间的相关性 lcavol:log cancel volume (肿瘤体积) lweight:log prostate weight (前列腺重量) age:(年龄) lbph:log bengin prostatic hypcrplasia (良性前列腺增生量) svi:seminal vesicle invasion (精囊浸润) lcp:log of capsular penetration (包膜穿透) gleason:gleason score (Gleason积分) pgg45:percent of Gleason scores 4 or 5 ( Gleason4/5所占百分比 )
您可能关注的文档
- 经济学的思维方式第4讲.ppt
- 2010年广东省考行测真题答案.doc
- 经济学笔记串讲.doc
- 2010年广东高考文综政治试题和答案.doc
- 2010年广东高考文综试题及答案文档.doc
- 经济学讲义(六).pptx
- 经济学概论第13章竞争市场上的企业.ppt
- 2010年广州二模语文试卷.doc
- 2010年广州中考英语试题修正版及答案(加解说).doc
- 经济学课程总结.doc
- 金融产品2024年投资策略报告:积极适应市场风格,行为金融+机器学习新发现.pdf
- 交运物流2024年度投资策略:转型十字路,峰回路又转(2023120317).pdf
- 建材行业2024年投资策略报告:板块持续磨底,重点关注需求侧复苏.pdf
- 宏观2024年投资策略报告:复苏之路.pdf
- 光储氢2024年投资策略报告:复苏在春季,需求的非线性增长曙光初现.pdf
- 公用环保2024年投资策略报告:电改持续推进,火电盈利稳定性有望进一步提升.pdf
- 房地产2024年投资策略报告:聚焦三大工程,静待需求修复.pdf
- 保险2024年投资策略报告:资产负债匹配穿越利率周期.pdf
- 政策研究2024年宏观政策与经济形势展望:共识与分歧.pdf
- 有色金属行业2024年投资策略报告:新旧需求共振&工业原料受限,构筑有色大海星辰.pdf
最近下载
- 结题报告高中物理小课题.PPT
- NB∕T 32037-2017 光伏发电建设项目文件归档与档案整理规范.pdf VIP
- 2024《高考志愿填报咨询服务意愿的影响因素实证研究》16000字.docx
- 无线网络优化模考试题(附答案).docx
- 中图版高中地理必修第二册课后习题 第四章 国土开发与保护 第一节 京津冀协同发展的地理背景 (2).doc VIP
- 工厂消防安全设备检查记录表.docx VIP
- 海绵城市监理实施细则.doc VIP
- 人教版小学二年级数学下册期中试卷.doc VIP
- 巴黎奥运樊振东乒乓球故事介绍【优质公开课】精品PPT课件模板.pptx
- 丽声北极星分级绘本第一级上 A Day with Monster Toon课件 .pptx VIP
文档评论(0)