23 主成分回归（Principal Component Regression, PCR）.DOC

下载文档 降价啦

603
0
约8.57千字
约 11页
2017-08-16 发布于天津
举报
版权申诉
保障服务

23 主成分回归（Principal Component Regression, PCR）.DOC

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

三种回归方法在消除多重共线性及其预测结果的比较肖雪梦，张应应 (重庆大学数学与统计学院统计与精算学系，重庆401331) 总来看，的误差要小些。关键词：多重共线性逐步回归主成分回归偏最小二乘回归中图分类号：O212.4文献标识码：A 0 引言在进行多元回归分析时，常常会遇到多重共线性的问题[1]。所谓多重共线性是指线性回归模型中的自变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。当自变量之间存在着严重的多重共线性时，用最小二乘法得到的回归模型的预测精度就会大大降低[2]。一方面，回归系数的估计值对样本数据的微小变化将变得非常敏感，使得稳定性变得很差；另一方面，给回归系数的统计检验以及回归系数的物理含义解释等造成一定的困难。为了消除多重共线性给回归模型带来的不良影响，国内外学者已进行过许多的研究，并得出了许多有效的解决方法，包括逐步回归法、主成分回归法和偏最小二乘回归法等。本文就这三种方法分别在消除多重共线性的效果上作了比较分析。之后再分别用这三种回归模型作向外预测，比较预测结果并作进一步的分析。 1 理论知识 1.1 多重共线性多重共线性[3]是指在自变量之间存在线性相关关系的现象，对一组自变量，如果存在，使得线性等式成立，即至少存在一个，它可以由其他的变量决定，即则称之间存在完全的多重共线性，即其相关系数为1；如果式对所有数据都不成立，则它们之间没有相关性，即其相关系数为0；如果式近似的对所有数据成立，则称之间存在近似的多重共线性，其相关系数就介于0和1之间。共线性的诊断方法[4]是基于对自变量的观测数据构成的矩阵进行分析，使用各种反映自变量间相关性的指标。共线性诊断常用的统计量有方差膨胀因子或容限、条件数和方差比例等。本文采用条件数的方法。若矩阵的特征值为，则称为条件数。一般认为，若条件数在10 与30 之间为弱相关，在30 与100 之间为中等相关，大于100 表示有强相关。 1.2 主成分回归主成分分析[5]也称主分量分析，是由Pearson（1901）提出，后由Hotelling（1933）发展起来的。主成分分析采取降维的方法，通过确定少数几个综合因子即主成分来代表原来众多的变量，使这些主成分能尽可能地反映原来变量的信息，且彼此之间互不相关。回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。主成分回归法即是上述两种分析方法的结合。设是维随机变量，并假设，。考虑如下线性变换，易见， . 我们希望的方差达到最大，即是约束优化问题的解。因此，是最大特征值（不妨设为）的特征向量。此时，称为第一主成分。类似地，希望的方差达到最大，并且要求。由于是的特征向量，所以，选择的应与正交。类似于前面的推导。是第二大特征值（不妨设为）的特征向量，称为第二主成分。一般情况，对于协方差阵，存在正交阵，将它化为对角阵，即，且。则的第列就对应于，相应的为第主成分。在实际的问题中，一般总体的协方差阵或相关矩阵是未知的，这时则需要通过样本来估计。 1.3 偏最小二乘回归偏最小二乘回归的基本原理在现有的一些文献中[6]已介绍得较为详细，但其具体的实施过程比较繁琐。下面，我们介绍一种更为简洁的计算方法。首先，该方法要求原始数据先标准化，然后对标准化后的数据求其相关系数矩阵，再直接从该相关系数矩阵中各自变量与因变量之间的相关系数计算出第一个成分的表达式 . 接着，分别将对实施回归，删掉常数项，得出各自的回归方程及各自的残差向量、，然后分别计算出与的协方差，接下来就可以得出第二个成分的表达式 . 继续分别将对实施回归，删掉常数项，得出各自的回归方程及各自的残差向量和协方差，从而得出第三个成分的表达式，以此类推。最后，根据约定的法则停止成分的提取，并得出最终的回归表达式。一般情况下，偏最小二乘法并不需要选用存在的个成分来建立回归式，而像主成分分析一样，只选用前个成分，即可得到预测能力较好的回归模型。对于建模所需提取的成分个数，可以通过交叉有效性[7]检验来确定。每次舍去第个观测值，用余下的个观测值按偏最小二乘回归方法建模，并考虑抽取个成分后拟合的回归式，然后把舍去的第个观测点代入所拟合的回归方程式，得到在第个观测点上的预测值。对重复以上的验证，即得抽取个成分时因变量的预测误差平方和为 . 另外，再采用所有的样本点，拟合含个成分的回归方程。这时，记第个样本点的预测值为，则可以定义的误差平方和为 . 当达到最小值时，对应的即为所求的成分个数。通常，总有大于，而则小于。因此，在提取成分时，总希望比值越小越好。一般可设定限制值为0.05，即当时，增加成分有利于模型精度的提高。或者反过来说，当时，就认为增加新的成分，对减少方程的预测误差无