现代统计分析方法与应用第7章：自变量选择与逐步回归.pptVIP

下载本文档

0
0
约7.44千字
约 33页
2024-10-30 发布于北京
举报
版权申诉

现代统计分析方法与应用第7章：自变量选择与逐步回归.ppt

1、本文档共33页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

续[例7.4]对例5.1地区生产总值y对地区财政支出的13个变量做回归的数据，用逐步回归法做变量选择，取显著性水平α进=0.05，α出=0.10。首先进入线性回归对话框，将y与x1至x13分别选入各自的变量框，然后在Method对话框中点选前进法Stepwise，点选Options选项看到默认的显著性水平α进=0.05，α出=0.10。部分运行结果如下：从上表看到，逐步回归的最优回归子集为模型4，回归方程为：逐步回归选元过程为第一步引入x8；第二步引入x13；第三步引入x10；第一步引入x2。逐步回归的选元过程是逐步回归方法的有进有出的思想。这种有进有出的结果说明自变量之间具有相关性，如果自变量之间是完全不相关的，那么引入的自变量就不会再被剔除，而剔除的自变量也就不会再被引入，这时逐步回归方法与前进法的结果是相同的。**第7章自变量选择与逐步回归自变量选择对估计和预测的影响所有子集回归逐步回归第1节自变量选择对估计和预测的影响从20世纪60年代开始，关于回归自变量的选择成为统计学中研究的热点问题。统计学家们提出了许多回归选元的准则，并提出了许多行之有效的选元方法。本章从回归选元对回归参数估计和预测的影响开始，介绍自变量选择常用的几个准则；扼要介绍所有子集回归选元的几个方法；详细讨论逐步回归方法及其应用。在建立一个实际问题的回归模型时，首先碰到的问题便是如何确定回归自变量，一般情况，大都是根据所研究问题的目的，结合实际问题理论罗列出对因变量可能有影响的一些因素作为自变量。如果遗漏了某些重要的变量，回归方程的效果肯定不会好；如果担心遗漏了重要的变量，而考虑过多的自变量，在这些变量中，某些自变量对问题的研究可能并不重要，有些自变量数据的质量可能很差，有些变量可能和其他变量有很大程度的重叠。如果回归模型把这样一些变量都选进来，不仅计算量增大好多，而且得到的回归方程稳定性也很差，直接影响到回归方程的应用。一、全模型和选模型设我们研究的某一实际问题，涉及对因变量有影响的因素共有m个，由因变量y和m个自变量x1，x2，…，xm构成的回归模型为：因为该模型是因变量y与所有自变量x1，x2，…，xm的回归模型，故称该式为全回归模型。如果从所有可供选择的m个变量中挑选出p个，记为x1，x2，…，xp，由所选的p个变量组成的回归模型为：相对全模型而言，我们称该模型为选模型。自变量的选择我们可以看成是对一个实际问题是用全模型还是用选模型去描述。如果应该用全模型去描述实际问题，而我们误选了选模型，这就说明我们在建模时丢掉了一些有用的变量；如果应该选模型，而我们误选了模型全模型，这就说明我们把一些不必要的自变量引进了模型。模型选择不当会给参数估计和预测带来什么影响?下面我们将分别给予讨论。⑴⑵为了方便，我们把模型(1)式的参数估计向量和σ2的估计记为：⑶⑷把模型(2)式的参数估计向量和σ2的估计记为：⑸⑹二、自变量选择对预测的影响关于自变量选择对预测的影响可以分成两种情况考虑，第一种情况是全模型（1）式正确而误用了选模型（2）式；第二种情况是选模型（2）式正确而误用了全模型（1）式。以下分别考虑这两种情况对回归的影响。(一)全模型正确而误用选模型的情况性质1：在xj与xp+1，…，xm的相关系数不全为0时，选模型回归系数的最小二乘估计是全模型相应参数的有偏估计，即：性质2：选模型的预测是有偏的。用选模型的预测值为：作为y0的预测值是有偏的，即:给定新自变量值x0p＝(x01，x02，…，x0m)‘，因变量新值为：性质3：选模型的参数估计有较小的方差。选模型的最小二乘参数估计为：全模型的最小二乘参数估计为：这条性质说明：性质4：选模型的预测残差有较小的方差。选模型的预测残差为：全模型的预测残差为：则有：性质1和性质2表明，当全模型(1)式正确时，而我们舍去了m-p个自变量，用剩下的p个自变量去建立选模型(2)式，参数估计值是全模型相应参数的有偏估计，用其作预测，预测值也是有偏的。这是误用选模型产生的弊端。性质3和性质4表明，用选模型去作预测，残差的方差比用全模型去作预测的方差小，尽管用选模型所作的预测是有偏的，但得到的预测偏差的方差下降了。这说明尽管全模型正确，误用选模型是有弊也有利的。性质5说明即使全模型正确，但如果其中有一些自变量对因变量影响很小或回归系数方差过大，我们丢掉这些变量之后，用选模型去预测，可以提高预测的精度。由此可见，如果模型中包含了一些不必要的自变量，模型的预测精度就会下降。性质5：选