网站大量收购闲置独家精品文档,联系QQ:2885784924

[工程科技]多重共线性.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工程科技]多重共线性

多元共线性问题的 产生、诊断与处理 主要内容 多元共线性的产生 多元共线性的影响与表现 多元共线性的诊断 多元共线性的处理 Logistic回归与Cox回归模型中的多元共线性问题 多元共线性 “多元共线”一词最早由R.佛里希于1934年提出,其最初的含义是指回归模型中的某些自变量是线性相关的,即对于出现在模型中的自变量有关系 成立.其中常数km(m=1,2,…,n)不全为0.称为完全多元共线; 现在所说的“多元共线”有更广泛的含义,除包括完全共线性的情况,也包括变量间有某种关系但又不是十分完全的线性关系.如下式所示的情况 其中 为随机误差项.此时可称为近似多元共线。 一、多元共线性的产生 对于多元共线性问题产生的根源,可以从两个方面考虑: 1、由变量性质引起 2、由数据问题引起 情况一:样本含量过小 情况二: 出现强影响观测值 情况三: 时序变量 1、由变量性质引起 在进行多元统计分析时,作为自变量的某些变量高度相关,比如身高、体重和胸围,变量之间的相关性是由变量自身的性质决定的,此时不论数据以什么形式取得,样本含量是大是小,都会出现自变量的共线性问题。因此,变量间自身的性质是导致多元共线性的重要原因。 情况一:样本含量过小 假设只有两个自变量X1与X2,当n=2时,两点总能连成一条直线,即使性质上原本并不存在线性关系的变量X1与X2,由于样本含量问题产生了共线性。样本含量较小时,自变量容易呈现线性关系。 如果研究的自变量个数大于2,设为X1,X2,...,XP,虽然各自变量之间没有线性关系,但如果样本含量n小于模型中自变量的个数,就可能导致多元共线性问题。 情况二: 出现强影响观测值 进入20世纪80年代后期,人们开始关注单个或几个样本点对多重共线性的影响。研究表明,存在两类这样的数据点或点群:(1)导致或加剧多重共线性 (2)掩盖存在着的多重共线性。 (a)中因异常观测值的出现而掩盖了共线性,(b)中因异常观测值的出现而产生了共线性。这样的异常观测值称为多元共线性强影响观测值。显然这种观测值会对设计矩阵的性态产生很大影响,从而影响参数估计。 情况三:时序变量 若建模所用的自变量是时序变量,并且是高阶单整时序变量,这种时序变量之间高度相关,必然导致多重共线性。 二、多元共线性的影响 以多元线性回归分析为例,讨论多元共线性问题对参数估计的影响。 采用最小二乘法(the Least Squares Method)对多元线性回归模型的偏回归系数进行估计。经整理得一个关于β0,β1、…、βm的线性方程组,称为正规方程组。若记方程组的系数矩阵为A,则A恰为 。β的最小二乘估计可表示为: 如果自变量存在完全多元共线性,设计矩阵不是列满秩的, , ,即 的逆阵不存在,该矩阵为奇异矩阵。因此无法利用最小二乘法估计偏回归系数。 如果自变量之间存在近似共线性, , 接近奇异,此时如果仍然采用最小二乘法,会使偏回归系数的估计值不稳定、不合理,严重影响回归模型拟合的效果。 多元共线性的表现 上述效应在实际应用中主要表现为: (1)模型拟合效果很好,但偏回归系数几乎都无统计学意义; (2)偏回归系数估计值的方差很大; (3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化; (4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释。 出现以上表现,提示存在多元共线性问题,应进行多元共线性诊断。 三、多元共线性的诊断 常用的共线性诊断指标有以下几个: (1)方差膨胀因子(variance inflation factors, ) 其中 为 与其余(m-1)个自变量线性回归的决定系数。值越大,多元共线程度越严重。 (2)特征根系统(system of eigenvalues) 主要包括条件指数和方差比。条件指数是最大特征根与每个特征根之比的平方根。当 且对应的方差比大于0.5时,可认为多元共线性严重存在。 此外,还有几种方法可以进行共线性诊断: 1、自变量的相关系数诊断法 2、多元决定系数值诊断法 3、行列式判别法 4、回归系数方差分解法(RCVD法) 1、自变量的相关系数诊断法 自变量的两两相关分析,如果自变量间的二元相关系数值很大(如大于0.9),则可认为存在多元共线性。但无确定的标准判断相关系数的大小与共线性的关系。有时,相关系数值不大,也不能

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档