l多元线性回归中多重共线问题的解决方法综述.docxVIP

下载本文档

25
0
约5.54千字
约 6页
2017-01-12 发布于北京
举报
版权申诉

l多元线性回归中多重共线问题的解决方法综述.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

l多元线性回归中多重共线问题的解决方法综述

多元线性回归中多重共线问题的解决方法综述摘要在回归分析中，当自变量之间出现多重共线性现象时，常会严重影响到参数估计，扩大模型误差，并破坏模型的稳健性，因此消除多重共线性成为回归分析中参数估计的一个重要环节。现在常用的解决多元线性回归中多重共线性的回归模型有岭回归（Ridge Regression）、主成分回归(Principal Component Regression简记为PCR)和偏最小二乘回归(Partial Least Square Regression简记为PLS)。关键词：多重共线性；岭回归；主成分回归；偏最小二乘回归引言在多元线性回归分析中，变量的多重相关性会严重影响到参数估计，增大模型误差，并破坏模型的稳健性由于多重共线性问题在实际应用中普遍存在，并且危害严重，因此设法消除多重性的不良影响无疑具有巨大的价值常用的解决多元线性回归中多重共线问题的回归模型主要有主成分回归岭回归以及偏最小二乘回归。多元线性回归模型1.1 回归模型的建立设Y是一个可观测的随机变量,它受m个非随机因素X1,X2,…,Xp-1和随机因素ε的影响, 若有如下线性关系我们对变量进行了n次观察，得到n组观察数据(如下)，对回归系数进行估计一般要求nP。于是回归关系可写为采用矩阵形式来表示Y称为观测向量，X称为设计矩阵，ε称为误差向量，β称为回归参数。则误差的平方和求参数β的估计使得用最小二乘法估计得正规方程:由于X为列满秩,所以X TX 可逆,由此解得1.2 多重共线性的产生当时，表明在数据矩阵Ｘ中，至少有一个列向量可以用其余的列向量线性表示，则说明存在完全的多重共线性。即不存在，而导致无法估计。1.3多重共线性的产生的原因（1）经济变量之间往往存在同方向的变化趋势。当他们被引入同一个模型成为解释变量时，会出现多重共线性。（2）模型中包含滞后变量，变量各期值之间有可能高度相关。（3）利用截面数据建立模型也可能出现多重共线性。（4）经济变量之间往往存在着密切的内在关联度，要素之间互相制约，互相依存。（5）样本数据自身的原因，数据收集的范围过窄，造成某些解释变量之间似乎有相同或相反变化趋势的假象。（6）在建模过程中由于解释变量选择不当，引起变量之间的多重共线性。2 处理多重共线性的方法2. 1处理多重共线性的经验式方法2.1.1删除不重要的共线性变量最常见的一种思路是设法去掉不太重要的共线性变量。有些应用人员认为，可以采用多元回归分析中的向前选择变量、向后删除变量法或逐步回归法来进行变量的筛选。然而，在理论上，这些变量筛选方法都是针对无共线性的数据而言的。在多重共线性十分严重的情况下，结论的可靠性都要受到一定的影响。由于变量间多重共线性的形式十分复杂，而且还缺乏十分可靠的检验方法，所以，删除部分多重共线性变量的做法常导致增大模型的解释误差，将本应保留的系统信息舍弃，使得接受一个错误结论的可能和做出错误决策的风险都不断增大。另外，在一些模型中，从理论上要求一些重要的解释变量必须被包括在模型中，而这些变量又存在多重共线性。这时采用删除部分共线性变量的做法就不符合实际工作的要求。2.1.2 增加样本容量增加样本的容量在某种程度上会减轻多重共线性对模型估计的影响，而且对某些样本数据来说，变量间的多重共线性可能正是由于样本容量过小而造成的。然而，在实际工作中，由于时间、经费以及客观条件的限制，增大样本容量的方法常常是不可行的。2.1.3 变量转换的方式在少数情况下，当基于理论背景认为所有的变量都极其重要，但相互之间存在严重的多重共线性时，对方程的变量进行变换有时至少能在一定程度上消除共线性。两种最常用的变换方法为：(1) 构造一个多重共线性变量的组合。此方法就是构造一个新的变量，这一新变量是多重共线性变量的函数，进而以这一新变量来替代回归方程中的具有多重共线性的那些旧变量。但要注意的是，只有当新变量本身有意义时，才可以考虑采用组合变量这一方法。(2) 把方程的函数形式转换为一阶差分形式。若把一个方程（或一个方程中的几个变量）从它的常规设定形式转换为一阶差分的设定形式，就很有可能会大大降低多重共线性的程度。由于一阶差分方法损失了一个观测值（即样本数据少了一个），这在小样本的情况下是极不可取的。2.2岭回归根据高斯-马尔科夫定理，在线性回归模型的基本假设满足时，用最小二乘法得到的回归系数估计量是无偏的且具有最小方差。可以证明，即使在高度多重相关的情况下，最小二乘法的回归系数估计量依然是线性无偏的，且具有最小方差。也就是说，多重共线性并不影响最小二乘估计量的无偏性和最小方差性。因此在所有的线性无偏估计中，最小二乘估计仍具有比较小的方差，这并不意味着最小二乘估计量的方差一定是最小的，因为，虽然它在所有的线性无偏估计量中是方差较小，但是这个方差却不一定小。