- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
23 主成分回归(Principal Component Regression, PCR).DOC
三种回归方法在消除多重共线性及其预测结果的比较
肖雪梦,张应应
(重庆大学 数学与统计学院 统计与精算学系,重庆401331)
总来看,的误差要小些。关键词: 多重共线性逐步回归主成分回归偏最小二乘回归
中图分类号:O212.4文献标识码:A
0 引言
在进行多元回归分析时,常常会遇到多重共线性的问题[1]。所谓多重共线性是指线性回归模型中的自变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
当自变量之间存在着严重的多重共线性时,用最小二乘法得到的回归模型的预测精度就会大大降低[2]。一方面,回归系数的估计值对样本数据的微小变化将变得非常敏感,使得稳定性变得很差;另一方面,给回归系数的统计检验以及回归系数的物理含义解释等造成一定的困难。
为了消除多重共线性给回归模型带来的不良影响,国内外学者已进行过许多的研究,并得出了许多有效的解决方法,包括逐步回归法、主成分回归法和偏最小二乘回归法等。本文就这三种方法分别在消除多重共线性的效果上作了比较分析。之后再分别用这三种回归模型作向外预测,比较预测结果并作进一步的分析。
1 理论知识
1.1 多重共线性
多重共线性[3]是指在自变量之间存在线性相关关系的现象,对一组自变量,如果存在,使得线性等式
成立,即至少存在一个,它可以由其他的变量决定,即
则称之间存在完全的多重共线性,即其相关系数为1;如果式对所有数据都不成立,则它们之间没有相关性,即其相关系数为0;如果式近似的对所有数据成立,则称之间存在近似的多重共线性,其相关系数就介于0和1之间。
共线性的诊断方法[4]是基于对自变量的观测数据构成的矩阵进行分析,使用各种反映自变量间相关性的指标。共线性诊断常用的统计量有方差膨胀因子 或容限、条件数和方差比例等。
本文采用条件数的方法。若矩阵的特征值为,则称为条件数。一般认为,若条件数在10 与30 之间为弱相关,在30 与100 之间为中等相关,大于100 表示有强相关。
1.2 主成分回归
主成分分析[5]也称主分量分析,是由Pearson(1901)提出,后由Hotelling(1933)发展起来的。主成分分析采取降维的方法,通过确定少数几个综合因子即主成分来代表原来众多的变量,使这些主成分能尽可能地反映原来变量的信息,且彼此之间互不相关。回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。主成分回归法即是上述两种分析方法的结合。
设是维随机变量,并假设,。考虑如下线性变换
,
易见
,
.
我们希望的方差达到最大,即是约束优化问题
的解。因此,是最大特征值(不妨设为)的特征向量。此时,称为第一主成分。类似地,希望的方差达到最大,并且要求。由于是的特征向量,所以,选择的应与正交。类似于前面的推导。是第二大特征值(不妨设为)的特征向量,称为第二主成分。
一般情况,对于协方差阵,存在正交阵,将它化为对角阵,即
,
且。则的第列就对应于,相应的为第主成分。
在实际的问题中,一般总体的协方差阵或相关矩阵是未知的,这时则需要通过样本来估计。
1.3 偏最小二乘回归
偏最小二乘回归的基本原理在现有的一些文献中[6]已介绍得较为详细,但其具体的实施过程比较繁琐。下面,我们介绍一种更为简洁的计算方法。
首先,该方法要求原始数据先标准化,然后对标准化后的数据求其相关系数矩阵,再直接从该相关系数矩阵中各自变量与因变量之间的相关系数计算出第一个成分的表达式
.
接着,分别将对实施回归,删掉常数项,得出各自的回归方程及各自的残差向量、,然后分别计算出与的协方差,接下来就可以得出第二个成分的表达式
.
继续分别将对实施回归,删掉常数项,得出各自的回归方程及各自的残差向量和协方差,从而得出第三个成分的表达式,以此类推。最后,根据约定的法则停止成分的提取,并得出最终的回归表达式。
一般情况下,偏最小二乘法并不需要选用存在的个成分来建立回归式,而像主成分分析一样,只选用前个成分,即可得到预测能力较好的回归模型。对于建模所需提取的成分个数,可以通过交叉有效性[7]检验来确定。
每次舍去第个观测值,用余下的个观测值按偏最小二乘回归方法建模,并考虑抽取个成分后拟合的回归式,然后把舍去的第个观测点代入所拟合的回归方程式,得到在第个观测点上的预测值。对重复以上的验证,即得抽取个成分时因变量的预测误差平方和为
.
另外,再采用所有的样本点,拟合含个成分的回归方程。这时,记第个样本点的预测值为,则可以定义的误差平方和为
.
当达到最小值时,对应的即为所求的成分个数。通常,总有大于,而则小于。因此,在提取成分时,总希望比值越小越好。一般可设定限制值为0.05,即当 时,增加成分有利于模型精度的提高。或者反过来说,当 时,就认为增加新的成分,对减少方程的预测误差无
您可能关注的文档
- 2017年3月起实施的食品及食品相关标准 - 岳阳市食品质量安全监督 .DOC
- 2017年6月10日出版 - 师大新闻网 - 河北师范大学.DOC
- 2017年第25周饲料周报 - 会员中心-登录 - 饲料行业信息网.DOC
- 2017年第一批修订医疗服务价格项目.PDF
- 2017年食品安全监督抽检第3期附件.DOC
- 2017年骨外科学主治医师考试大纲.DOC
- 2017湖南高考生物压轴试题(含答案) 时间:90分钟满分100分 一、选择 .DOC
- 2017超声医学质控标准 - 医学会.DOC
- 20寸o年度机动车交通事故责任强制保险专题财务报表.PDF
- 21 噪声源定位意义 - 其高科技.PDF
- 2024高考物理一轮复习规范演练7共点力的平衡含解析新人教版.doc
- 高中语文第5课苏轼词两首学案3新人教版必修4.doc
- 2024_2025学年高中英语课时分层作业9Unit3LifeinthefutureSectionⅢⅣ含解析新人教版必修5.doc
- 2024_2025学年新教材高中英语模块素养检测含解析译林版必修第一册.doc
- 2024_2025学年新教材高中英语单元综合检测5含解析外研版选择性必修第一册.doc
- 2024高考政治一轮复习第1单元生活与消费第三课多彩的消费练习含解析新人教版必修1.doc
- 2024_2025学年新教材高中英语WELCOMEUNITSectionⅡReadingandThi.doc
- 2024_2025学年高中历史专题九当今世界政治格局的多极化趋势测评含解析人民版必修1.docx
- 2024高考生物一轮复习第9单元生物与环境第29讲生态系统的结构和功能教案.docx
- 2024_2025学年新教材高中英语UNIT5LANGUAGESAROUNDTHEWORLDSect.doc
最近下载
- 第12课 新文化运动 课件(23张PPT).pptx
- 机载临时支护装置安装使用说明书.docx
- 中国基本国情教案(汉语国际教育).docx
- 人教版数学二年级上册第五单元《观察物体(一)》大单元整体教学设计.doc
- 第2章 直线与圆的位置关系 复习课.doc VIP
- 中职学校《金属加工与实训》全套电子教案(含教学进度计划)(配套教材:高教版中职统编)云天课件( word 版).docx
- 程家惠《洋话汉音》(升级版).doc
- onbon仰邦科技 六代三基色控制器 BX-6K系列 规格书 本压缩包包含BX-6K1、6K2、 6K3、6K4-T08、6K4-T12 5个产品的规格书。说明书用户手册.pdf
- 职业生涯规划书ppt职业生涯规划书ppt.ppt
- 卡拉OK数码功放KMA-1080KMA-980中文使用说明书.pdf
文档评论(0)