- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章放宽条件的回归模型1多重共线性
第五章 放宽条件的回归模型(1)多重共线性 教师:卢时光 在前面的学习中,我们详尽的考察了经典正态线性回归模型,我们用它来进行估计和假设检验和预测问题。但是,这个模型是建立在一些简化了的假定基础之上的。这些假定包括: 1. 回归模型对于参数而言是线性的。 2. 各回归元X的值在重复抽样中是固定的。 3. 给定的X,干扰ui的均值为零。 4. 对于给定的X,ui的方差不变或称之为同方差性。 5. 对于给定的X,干扰无自相关。 6. 如果X是随机的,则干扰项与各个X是独立的至少是不相关的。 7. 观测的次数大于回归元的个数。 8. 回归元的取值必须有足够的变异性。 9. 回归模型被正确的设定。 10. 回归元之间无多重共线性。 11. 随机干扰项ui是正态分布的。 遗憾的是,我们尚无法对所有的问题都给出令人满意的答案。接下来的工作中,我们对某些假定给予更多的注意,当然有些假定我们并不过分的深究,特别是假定1、2、3、6和11中的问题。 威瑟里尔(Wetherill)指出,实际上在应用经典线性回归模型时,有两类问题需要注意:(1)关于模型设定及对干扰项ui的假定问题,诸如假定1、2、3、4、5、9和11;(2)关于对数据的假定问题,诸如6、7、8和10。 关于对来自干扰和模型设定的假定问题主要有三: 1. 要偏离一个具体的假定多远才会产生不可忽视的差别?如ui不是正态分布,那么我们能够容忍多大程度上的正态性偏离? 2. 在一个具体问题中,我们怎样发现某一个假定被破坏?比方说我们介绍过利用雅克-贝拉检验来检验ui的正态性。 3. 如果一个或者多个假定被破坏,我们能够采用什么样的补救措施? 在剩下的问题中,假定7、8和10是紧密相关的,我们在多重共线性问题中探讨;假定4在异方差问题中探讨;假定5在自相关问题中探讨。 我们在探讨这些问题的时候,遵循下列范式: 1. 明确问题的性质; 2. 分析它的影响; 3. 提出侦测它的方法; 4. 考虑补救的措施。 1 多重共线性 经典线性回归模型假定: 假定10:包含在模型中的回归元不存在多重共线性; 假定7:观测的次数必须大于回归元的个数; 假定8:回归元的取值必须有足够的变异。 上述假定7和8都是对无多重共线性的补充。我们把它们合并在一起探讨。 1 多重共线性的性质 多重共线性是指在一个回归模型中,一些或全部解释变量之间存在一种完全或准确的线性关系。对于涉及解释变量X1、X2、…、Xk的k变量回归而言,我们说,存在一种准确的线性关系,如果下列条件得到满足: 以上我们称解释变量X1、X2、…、Xk之间存在完全多重共线性。 除了完全多重共线性的情形之外,我们还发现各个X变量之间可能存在有相互关系,但又非完全相关的关系。如: 这表明X2不是其他X的一个准确的线性组合,因为它还取决于随机误差项vi。我们称上述情形为不(欠)完全的多重共线性。 例如右表中的数据: 很明显,X3i=5X2i。因此X2和X3 之间存在完全的多重共线性并且 X2和X3相关系数为1。而X3*不过 是X3加上了随机数2、0、7、9、 2上产生的。 X2和X3*之间不再有 完全共线性,但是它们之间的相 关系数是0.9959,所以是高度相关 的。 多重共线性的巴伦坦图 产生多重共线性的原因: 1. 数据采集所用的方法。 2. 模型或从取样的总体中受到的约束。例如做电力消费对收入和住房面积的回归的时候,总体中有这样一种约束:一般而言,收入较高的家庭住房面积也更大。 3. 模型的设定。尤其是当X变量的变化范围较小时。 4. 一个过度决定的模型。模型的回归元个数大于观测次数。如在医药研究中,在少数病人身上收集大量变元信息。 多重共线性对经典线性回归模型的影响 如果多重共线性是完全的,这样各个X变量的回归系数将是不确定的,并且它们的标准误为无穷大。 如果多重共线性是不(欠)完全的,那么回归系数可以确定,却有着较大的标准误,或者说,系数不能以很高的准确度加以估计。 2 出现多重共线性时的估计问题 前面说过,如果出现完全多重共线性,回归系数是不确定的,并且其标准误是无穷大。 以三变量回归模型为例来说明: 写成离差的形式 根据前面的分析,得到回归系数的表达公式 我们令X3i=λX2i,这里λ的一个不为零的常数。 上式是一个不定式。大家很容易证明 也是不确定的。 我们为什么会得到这样的结果呢?回想一下 的意义:它是在保持X3不变的情况下,当X2每改变一个单位时,Y的平均值的变换率。如果X2和X3是完全共线性的,就没有任何方法能够保持X3不变,因为随着X2的改变,X3也按照一个倍数因子λ改变。这意味着没有任何方法能够从给定的样本中把X2和
文档评论(0)