自变量选择与逐步回归.docVIP

下载本文档

41
0
约6.47千字
约 6页
2019-06-29 发布于湖北
举报
版权申诉

自变量选择与逐步回归.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

自变量选择与逐步回归一、全模型和选模型设研究某一实际问题，涉及对因变量有影响的因素共有m个，由因变量y和m个自变量构成的回归模型 SKIPIF 1 0 称为全模型。如果从可供选择的m个变量中选出p个，由选出的p个自变量组成的回归模型 SKIPIF 1 0 称为选模型。二、自变量选择对预测的影响自变量选择对预测的影响可以分为两种情况考虑，第一种情况是全模型正确而误用了选模型；第二种情况是选模型正确而无用了全模型。以下是这两种情况对回归的影响。 1、全模型正确而误用选模型的情况性质1，在 SKIPIF 1 0 与 SKIPIF 1 0 的相关系数不全为0时，选模型回归系数的最小二乘估计是全模型相应参数的有偏估计，即 SKIPIF 1 0 （ SKIPIF 1 0 ）性质2，选模型的预测是有偏的。性质3，选模型的参数估计有较小的方差。性质4，选模型的预测残差有较小的方差。性质5，选模型的均方误差比全模型预测的方差更小。性质1和性质2表明，当全模型正确时，而舍去了m-p个自变量，用剩下的p个自变量去建立选模型，参数估计值是全模型相应参数的有偏估计，用其做预测，预测值也是有偏的。这是误用选模型产生的弊端。性质3和性质4表明，用选模型去作预测，残差的方差比用全模型去作预测的方差小，尽管用选模型所作的预测是有偏的，但得到的预测残差的方差下降了，这说明尽管全模型正确，误用选模型是有弊也有利的。性质5说明，即使全模型正确，但如果其中有一些自变量对因变量影响很小或回归系数方差过大，丢掉这些变量之后，用选模型去预测，可以提高预测的精度。由此可见，如果模型中包含了一些不必要的自变量，模型的预测精度就会下降。 2、选模型正确而误用全模型的情况全模型的预测值是有偏估计；选模型的预测方差小于全模型的预测方差；全模型的预测误差将更大。一个好的回归模型，并不是考虑的自变量越多越好。在建立回归模型时，选择自变量的基本知道思想是少而精。丢掉了一些对因变量y有影响的自变量后，所付出的代价是估计量产生了有偏性。然而，尽管估计是有偏的，但预测偏差的方差会下降。另外，如果保留下来的自变量有些对因变量无关紧要，那么，方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。因此，在建立实际问题的回归模型时，应尽可能剔除那些可有可无的自变量。三、所有子集回归 1、所有子集的数目设在一个实际问题的回归建模中，有m个可供选择的变量 SKIPIF 1 0 ，由于每个自变量都有入选和不入选两种情况，这样y关于这些自变量的所有可能的回归方程就有 SKIPIF 1 0 -1个，这里-1是要求回归模型中至少包含一个自变量，即减去模型中只包含常数项的这一种情况。如果把回归模型中只包含常数项的这一种情况也算在内，那么所有可能的回归方程就有 SKIPIF 1 0 个。从另一个角度看，选模型包含的自变量数目p有从0到m共有m+1种不同的情况，而对选模型中恰包含p个自变量的情况，从全部m个自变量中选p个的方法共有线性组合 SKIPIF 1 0 个，因而所有选模型的数目为： SKIPIF 1 0 。 2、关于自变量选择的几个准则把选模型的残差平方和记为 SKIPIF 1 0 ，当再增加一个新的自变量 SKIPIF 1 0 时，相应的残差平方和记为 SKIPIF 1 0 。根据最小二乘估计的原理，增加自变量时残差平方和将减少，减少自变量时残差平方和将增加。因此有 SKIPIF 1 0 ,它们的负决定系数分别为： SKIPIF 1 0 , SKIPIF 1 0 ，由于SST是因变量的离差平方和，与自变量无关，因而有 SKIPIF 1 0 ，即当自变量子集在扩大时，残差平方和随之减少，而复决定系数 SKIPIF 1 0 随之增大。因此，如果按残差平方和越小越好的原则来选择自变量子集，或者为提高复决定系数，不论什么变量只要多取就行，则毫无疑问选的变量越多越好。这样由于变量的多重共线性，给变量的回归系数估计值带来不稳定性，加上变量的测量误差积累，参数数目的增加，将使估计值的误差增大。因此，从数据与模型拟合优劣的直观考虑出发，认为残差平方和SSE最小的回归方程就是最好的，还曾用负相关系数R来衡量回归拟合好坏都不能作为选择变量的准则。准则一：自由度调整复决定系数达到最大。当给模型增加自变量时，复决定系数也随之逐步增大，然而复决定系数的增大代价是残差自由度的减少，因为残差自由度等于样本个数与自变量个数之差。自由度小意味着估计和预测可靠性低。设 SKIP