多元逐步回归为何要剔除一部分自变量.ppt

多元逐步回归为何要剔除一部分自变量.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多元逐步回归为何要剔除一部分自变量

多元线性回归中自变量的确定: 根据理论知识与经验决定自变量,由于对部分自变量的作用不确认,借助统计分析来实现,剔除: (1)对问题的研究可能不重要; (2)可能实际上与其他变量重叠; (3)较大测量误差。 为何要剔除一部分自变量? 自变量太多,信息成本高,模型复杂,不易分析理解; 高度相关的自变量并不增强模型的预测能力,反而加大回归系数的样本变差,削弱模型的描述能力。 多元逐步回归 多元逐步回归------从m个自变量中选择K(K≤m)个自变量,拟合最优或较理想的多元线性回归方程。 选出的自变量数应: 足够少:对应变量无重要作用的自变量不能多,剔除在方程外 充分多:对应变量有重要作用的自变量不能少,保留在方程中 自变量选择准则 残差平方和(SS残)与确定系数(R2) 残差均方( MS残)与调整确定系数(Adj R2) AIC信息统计量 CP统计量 预测残差平方和PRESS 残差平方和(SS残) 残差平方和(SS残)与确定系数(R2) 以某一自变量Xj被引入模型中导致残差平方和的改变量评价在此模型条件下Xj对应变量影响程度; 引入Xj,SS残减少量多,则Xj对Y的作用大,可被引入; 剔除Xj, SS残增加量多,则Xj对Y的作用大,不应剔除. 确定系数(R2) R2 =1-SS残/SS总 R2与SS残完全相关,作为选择自变量的准则时完全与SS残等价。 SS残与R2 如具有p个自变量的某一种组合可使: SS残P与含全部(m个)自变量SS残m接近; R2P与 R2m接近,则含这p个自变量的方程为“最优”方程。 但 “接近”的标准凭主观确定 SS残与R2 SS残值小,R2大的模型为较“优”模型。 SS残、 R2值的大小与引入自变量个数有关,随自变量个数的增加SS残减少, R2 缺点: 按SS残值小,R2大的原则选择自变量,全部自变量均引入时的模型为较“优”模型,未起到选择自变量作用; SS残变化量准则适用于比较具有相同自变量个数模型优劣的判据,而不适合对变量个数不同的模型的比较。 残差均方( MS残) MS残P=SS残P/(n-p-1) : 含P个自变量时的MS残 MS残是在SS残准则基础上增加了(n-p-1)-1因子,随着自变量个数的增加, SS残减少, (n-p-1)同时减少, MS残不一定减低。 残差均方( MS残) 模型从无自变量开始,按自变量对Y作用大小逐渐引入,当对Y作用大的自变量引入时, SS残减少幅度大于(n-p-1)减少幅度,MS残降低; 当模型中自变量增加到一定程度,对Y作用大的自变量已基本引入,再增加自变量, SS残减少幅度小于(n-p-1)减少幅度, MS残增加。 调整确定系数(Adj R2) 作为选择自变量的准则, Adj R2与MS残等价。 缺点:  当n很大, Adj R2≈ R2 ,评判效果不佳 AIC信息统计量 由日本统计学家Akaike(1974)提出并修正以适合于回归模型选择的准则------ Akaike 信息量准则( Akaike information criterion),简记AIC。 AIC实用计算式 AIC=n.Ln(SS残P)+2P SS残P:含P个自变量时的残差平方和。 AIC达到最小为准则 CP统计量 Mallows,C.L(1966)提出。 :含有P个 自变量的残差平方和;    :含有全部 自变量(m个)的残差平方和 CP统计量 CP统计量从预测出发,基于残差平方和的一个准则。 若含有P个 自变量的模型合适, 具有较小的CP值,且CP接近于P+1的模型为“最优”模型。 n大时,CP准则效果好 预测残差平方和PRESS hii 度量第i个数据点到数据中心的距离 当PRESS达到最小的自变量组合模型为“最优”模型 自变量选择方法 目的决定自变量选择方法 选择对应变量作最好预报的一组自变量----着眼点是拟合回归方程的一组自变量整体,用该组自变量应使回归方程拟合得最好; 选择对应变量作最好解释的主要自变量----着眼点是引入回归方程的一组自变量的每个自变量 自变量选择方法 最优子集法 向前法 向后法 逐步法 最优子集法 m个自变量,可建立2m-1个不同自变量组合方程,按某一自变量选择准则,从2m-1个方程中选择一个或几个最优的方程。 常用自变量选择准则:SS残准则、R2准则、Adj R2准则、CP准则 建议选择: Adj R2准则、CP准则 最优子集法 优点 MS残最小,F最大,回归方程最优

文档评论(0)

yanpizhuang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档