- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
偏最小二乘回归方法及其应用
王惠文著
国防工业出版社1999年版
偏最小二乘回归≈多元线性回归分析+典型相关分析+主成分分析
与传统多元线性回归模型相比,偏最小二乘回归的特点是:(1)能够在自变量存在严重多重相关性的条件下进行回归建模;(2)允许在样本点个数少于变量个数的条件下进行回归建模;(3)偏最小二乘回归在最终模型中将包含原有的所有自变量;(4)偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);(5)在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。
在计算方差和协方差时,求和号前面的系数有两种取法:当样本点集合是随机抽取得到时,应该取1/(n-1);如果不是随机抽取的,这个系数可取1/n。
多重相关性的诊断
1 经验式诊断方法
1、在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。
2、回归系数的代数符号与专业知识或一般经验相反;或者,它同该自变量与y的简单相关系数符号相反。
3、对重要自变量的回归系数进行t检验,其结果不显著。
特别典型的是,当F检验能在高精度下通过,测定系数R2的值亦很大,但自变量的t检验却全都不显著,这时,多重相关性的可能性将很大。
4、如果增加(或删除)一个变量,或者增加(或删除)一个观测值,回归系数的估计值发生了很大的变化。
5、重要自变量的回归系数置信区间明显过大。
6、在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。
7、对于一般的观测数据,如果样本点的个数过少,样本数据中的多重相关性是经常存在的。
但是,采用经验式方法诊断自变量系统中是否确实存在多重相关性,并不十分可靠,另一种较正规的方法是利用统计检验(回归分析),检查每一个自变量相对其它自变量是否存在线性关系。
2 方差膨胀因子
最常用的多重相关性的正规诊断方法是使用方差膨胀因子。自变量xj的方差膨胀因子记为(VIF)j,它的计算方法为
(4-5) (VIF)j =(1-R j2)-1
式中,R j2是以xj为因变量时对其它自变量回归的复测定系数。
所有xj变量中最大的(VIF)j通常被用来作为测量多重相关性的指标。一般认为,如果最大的(VIF)j超过10,常常表示多重相关性将严重影响最小二乘的估计值。
(VIF)j被称为方差膨胀因子的原因,是由于它还可以度量回归系数的估计方差与自变量线性无关时相比,增加了多少。
不妨假设x1,x2,…,xp均是标准化变量。采用最小二乘法得到回归系数向量B,它的精度是用它的方差来测量的。B的协方差矩阵为
Cov(B)= σ2 (XX)-1
式中,σ2是误差项方差。所以,对于回归系数b j,有
Var(b j)= σ2cjj
cjj是(XX)-1矩阵中第j个对角元素。可以证明,
cjj =(VIF)j
岭回归分析
1 岭回归估计量
岭回归分析是一种修正的最小二乘估计法,当自变量系统中存在多重相关性时,它可以提供一个比最小二乘法更为稳定的估计,并且回归系数的标准差也比最小二乘估计的要小。
根据高斯——马尔科夫定理,多重相关性并不影响最小二乘估计量的无偏性和最小方差性。但是,虽然最小二乘估计量在所有线性无偏估计量中是方差最小的,但是这个方差却不一定小。于是可以找一个有偏估计量,这个估计量虽然有微小的偏差,但它的精度却能够大大高于无偏的估计量。
在应用岭回归分析时,它的计算大多从标准化数据出发。对于标准化变量,最小二乘的正规方程为
rXXb=ryX
式中,rXX是X的相关系数矩阵,ryX是y与所有自变量的相关系数向量。
岭回归估计量是通过在正规方程中引入有偏常数c(c≥0)而求得的。它的正规方程为+
(4-8) (rXX+ cI) bR=ryX
所以,在岭回归分析中,标准化回归系数为
(4-9) bR =(rXX+ cI)-1 ryX
2 岭回归估计量的性质
(1)岭回归系数是一般最小二乘准则下回归系数的线性组合,即
(4-10) bR =(I+ crXX-1)-1b
(2)记β是总体参数的理论值。当β≠0时,可以证明一定存在一个正数c0,使得当0 c c0时,一致地有
(4-11) E|| bR -β||2≤ E|| b -β||2
(3)岭回归估计量的绝对值常比普通最小二乘估计量的绝对值小,即
(4-12) || bR |||| b ||
岭回归估计量的质量取决于偏倚系数c的选取。c的选取不宜过大,因为
E(bR)=(I+ crXX-1)-1 E (b)=(I+ crXX-1)-1β
关于偏倚系数c的选取尚没有正规的决策准则,目前主要以岭迹和方差膨胀因子为依据。岭迹是指p-1个岭回归系数估计量对不同的c值所描绘的曲线(c值一般在0~1之间)。在通过检查岭迹和方差膨胀因子来选择c值时,其判断方法是选择一个尽可能小的c值,在这个较小的c值上
您可能关注的文档
最近下载
- 【解读】GB17761-2018电动自行车安全技术规范.pdf VIP
- AD832I机台操作指引.pdf VIP
- 《植物的茎》(教案)-中职农林牧渔大类《植物生长和环境》同步教学(高教版)(第四版)(全一册).docx VIP
- 证券从业资格证金融市场基础知识模拟卷及答案解析.docx VIP
- 证券从业资格证考试金融市场基础知识冲刺试题.docx VIP
- 证券从业资格证《金融市场基础知识》考前练习及答案解析.docx VIP
- 证券从业《金融市场基础知识》基础练及答案解析.docx VIP
- 证券从业资格考试金融市场基础知识预测试题及答案解析.docx VIP
- 2021年证券从业考试《金融市场基础知识》习题及答案.docx VIP
- 高中英语学业质量标准研究.pptx VIP
文档评论(0)