自变量选择与逐步回归.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自变量选择与逐步回归 一、全模型和选模型 设研究某一实际问题,涉及对因变量有影响的因素共有m个,由因变量y和m个自变量构成的回归模型 SKIPIF 1 0 称为全模型。 如果从可供选择的m个变量中选出p个,由选出的p个自变量组成的回归模型 SKIPIF 1 0 称为选模型。 二、自变量选择对预测的影响 自变量选择对预测的影响可以分为两种情况考虑,第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而无用了全模型。以下是这两种情况对回归的影响。 1、全模型正确而误用选模型的情况 性质1,在 SKIPIF 1 0 与 SKIPIF 1 0 的相关系数不全为0时,选模型回归系数的最小二乘估计是全模型相应参数的有偏估计,即 SKIPIF 1 0 ( SKIPIF 1 0 ) 性质2,选模型的预测是有偏的。 性质3,选模型的参数估计有较小的方差。 性质4,选模型的预测残差有较小的方差。 性质5,选模型的均方误差比全模型预测的方差更小。 性质1和性质2表明,当全模型正确时,而舍去了m-p个自变量,用剩下的p个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计,用其做预测,预测值也是有偏的。这是误用选模型产生的弊端。 性质3和性质4表明,用选模型去作预测,残差的方差比用全模型去作预测的方差小,尽管用选模型所作的预测是有偏的,但得到的预测残差的方差下降了,这说明尽管全模型正确,误用选模型是有弊也有利的。 性质5说明,即使全模型正确,但如果其中有一些自变量对因变量影响很小或回归系数方差过大,丢掉这些变量之后,用选模型去预测,可以提高预测的精度。由此可见,如果模型中包含了一些不必要的自变量,模型的预测精度就会下降。 2、选模型正确而误用全模型的情况 全模型的预测值是有偏估计;选模型的预测方差小于全模型的预测方差;全模型的预测误差将更大。 一个好的回归模型,并不是考虑的自变量越多越好。在建立回归模型时,选择自变量的基本知道思想是少而精。丢掉了一些对因变量y有影响的自变量后,所付出的代价是估计量产生了有偏性。然而,尽管估计是有偏的,但预测偏差的方差会下降。另外,如果保留下来的自变量有些对因变量无关紧要,那么,方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。因此,在建立实际问题的回归模型时,应尽可能剔除那些可有可无的自变量。 三、所有子集回归 1、所有子集的数目 设在一个实际问题的回归建模中,有m个可供选择的变量 SKIPIF 1 0 ,由于每个自变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有 SKIPIF 1 0 -1个,这里-1是要求回归模型中至少包含一个自变量,即减去模型中只包含常数项的这一种情况。如果把回归模型中只包含常数项的这一种情况也算在内,那么所有可能的回归方程就有 SKIPIF 1 0 个。 从另一个角度看,选模型包含的自变量数目p有从0到m共有m+1种不同的情况,而对选模型中恰包含p个自变量的情况,从全部m个自变量中选p个的方法共有线性组合 SKIPIF 1 0 个,因而所有选模型的数目为: SKIPIF 1 0 。 2、关于自变量选择的几个准则 把选模型的残差平方和记为 SKIPIF 1 0 ,当再增加一个新的自变量 SKIPIF 1 0 时,相应的残差平方和记为 SKIPIF 1 0 。根据最小二乘估计的原理,增加自变量时残差平方和将减少,减少自变量时残差平方和将增加。因此有 SKIPIF 1 0 ,它们的负决定系数分别为: SKIPIF 1 0 , SKIPIF 1 0 ,由于SST是因变量的离差平方和,与自变量无关,因而有 SKIPIF 1 0 ,即当自变量子集在扩大时,残差平方和随之减少,而复决定系数 SKIPIF 1 0 随之增大。因此,如果按残差平方和越小越好的原则来选择自变量子集,或者为提高复决定系数,不论什么变量只要多取就行,则毫无疑问选的变量越多越好。这样由于变量的多重共线性,给变量的回归系数估计值带来不稳定性,加上变量的测量误差积累,参数数目的增加,将使估计值的误差增大。因此,从数据与模型拟合优劣的直观考虑出发,认为残差平方和SSE最小的回归方程就是最好的,还曾用负相关系数R来衡量回归拟合好坏都不能作为选择变量的准则。 准则一:自由度调整复决定系数达到最大。 当给模型增加自变量时,复决定系数也随之逐步增大,然而复决定系数的增大代价是残差自由度的减少,因为残差自由度等于样本个数与自变量个数之差。自由度小意味着估计和预测可靠性低。设 SKIP

文档评论(0)

bodkd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档