偏最小二乘回归方法及其应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
偏最小二乘回归方法及其应用 王惠文著 国防工业出版社1999年版   偏最小二乘回归≈多元线性回归分析+典型相关分析+主成分分析 与传统多元线性回归模型相比,偏最小二乘回归的特点是:(1)能够在自变量存在严重多重相关性的条件下进行回归建模;(2)允许在样本点个数少于变量个数的条件下进行回归建模;(3)偏最小二乘回归在最终模型中将包含原有的所有自变量;(4)偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);(5)在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。 在计算方差和协方差时,求和号前面的系数有两种取法:当样本点集合是随机抽取得到时,应该取1/(n-1);如果不是随机抽取的,这个系数可取1/n。   多重相关性的诊断 1 经验式诊断方法 1、在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。 2、回归系数的代数符号与专业知识或一般经验相反;或者,它同该自变量与y的简单相关系数符号相反。 3、对重要自变量的回归系数进行t检验,其结果不显著。 特别典型的是,当F检验能在高精度下通过,测定系数R2的值亦很大,但自变量的t检验却全都不显著,这时,多重相关性的可能性将很大。 4、如果增加(或删除)一个变量,或者增加(或删除)一个观测值,回归系数的估计值发生了很大的变化。 5、重要自变量的回归系数置信区间明显过大。 6、在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。 7、对于一般的观测数据,如果样本点的个数过少,样本数据中的多重相关性是经常存在的。 但是,采用经验式方法诊断自变量系统中是否确实存在多重相关性,并不十分可靠,另一种较正规的方法是利用统计检验(回归分析),检查每一个自变量相对其它自变量是否存在线性关系。 2 方差膨胀因子 最常用的多重相关性的正规诊断方法是使用方差膨胀因子。自变量xj的方差膨胀因子记为(VIF)j,它的计算方法为 (4-5) (VIF)j =(1-R j2)-1 式中,R j2是以xj为因变量时对其它自变量回归的复测定系数。 所有xj变量中最大的(VIF)j通常被用来作为测量多重相关性的指标。一般认为,如果最大的(VIF)j超过10,常常表示多重相关性将严重影响最小二乘的估计值。 (VIF)j被称为方差膨胀因子的原因,是由于它还可以度量回归系数的估计方差与自变量线性无关时相比,增加了多少。 不妨假设x1,x2,…,xp均是标准化变量。采用最小二乘法得到回归系数向量B,它的精度是用它的方差来测量的。B的协方差矩阵为 Cov(B)= σ2 (XX)-1 式中,σ2是误差项方差。所以,对于回归系数b j,有 Var(b j)= σ2cjj cjj是(XX)-1矩阵中第j个对角元素。可以证明, cjj =(VIF)j 岭回归分析 1 岭回归估计量 岭回归分析是一种修正的最小二乘估计法,当自变量系统中存在多重相关性时,它可以提供一个比最小二乘法更为稳定的估计,并且回归系数的标准差也比最小二乘估计的要小。 根据高斯——马尔科夫定理,多重相关性并不影响最小二乘估计量的无偏性和最小方差性。但是,虽然最小二乘估计量在所有线性无偏估计量中是方差最小的,但是这个方差却不一定小。于是可以找一个有偏估计量,这个估计量虽然有微小的偏差,但它的精度却能够大大高于无偏的估计量。 在应用岭回归分析时,它的计算大多从标准化数据出发。对于标准化变量,最小二乘的正规方程为 rXXb=ryX 式中,rXX是X的相关系数矩阵,ryX是y与所有自变量的相关系数向量。 岭回归估计量是通过在正规方程中引入有偏常数c(c≥0)而求得的。它的正规方程为+ (4-8) (rXX+ cI) bR=ryX 所以,在岭回归分析中,标准化回归系数为 (4-9) bR =(rXX+ cI)-1 ryX 2 岭回归估计量的性质 (1)岭回归系数是一般最小二乘准则下回归系数的线性组合,即 (4-10) bR =(I+ crXX-1)-1b (2)记β是总体参数的理论值。当β≠0时,可以证明一定存在一个正数c0,使得当0 c c0时,一致地有 (4-11) E|| bR -β||2≤ E|| b -β||2 (3)岭回归估计量的绝对值常比普通最小二乘估计量的绝对值小,即 (4-12) || bR |||| b || 岭回归估计量的质量取决于偏倚系数c的选取。c的选取不宜过大,因为 E(bR)=(I+ crXX-1)-1 E (b)=(I+ crXX-1)-1β 关于偏倚系数c的选取尚没有正规的决策准则,目前主要以岭迹和方差膨胀因子为依据。岭迹是指p-1个岭回归系数估计量对不同的c值所描绘的曲线(c值一般在0~1之间)。在通过检查岭迹和方差膨胀因子来选择c值时,其判断方法是选择一个尽可能小的c值,在这个较小的c值上

文档评论(0)

annylsq + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档