4.2 回归分析假定条件以及数据处理.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
回归分析假定条件以及数据处理 1.回归分析的假定条件 有关多元(线性)回归分析(RA )的模型,在前文已经提到。其假定公式是: y=α +α x +α x +…+α x +e =αx +e (i-j,0 -n) (1) 0 1 1 2 2 n n j i i j 此公式表明:y 是x 的的线性函数(α +α x +α x + …+α x )加上误差项e ,数据应满 i 0 1 1 2 2 k k j 足以下条件才可以进行线性回归。 (1)自变量与因变量之间存在线性关系。 这可以通过绘制“散点图矩阵”进行考察因变量随各自变量值的变化情况。如果因变量 Yi 与某个自变量Xi 之间呈现出曲线趋势,可尝试通过变量变换予以修正,常用的变量变 换方法有对数变换、倒数变换、平方根变换、平方根反正弦变换等。 (2 )各观测间相互独立。 任意两个观测残差的协方差为0,也就是要求自变量间不存在多重共线性问题。对于 如何处理多重共线性问题,请参考 《多元线性回归模型中多重共线性问题处理方法》。 由(1)可以看出,误差项反映了除xi 与y 的线性关系之外的随机因素对y 的影响,这是 不能由xi 与y 之间的线性关系所解释的变异性。在此模型中,对误差项ej 有三个基本假定: (1)误差项e 是一个期望值为 0 的随机变量,即E(e )=0,这意味着对于给定的 x 值, j j i y 的期望值为E(y)=α +α x +α x +…+α x 。 0 1 1 2 2 k k 2 (2 )对自变量x ,x ,…,x 的所有值,e 的方差σ 都相同。 1 2 n j 2 (3 )误差项e 是一个服从正态分布的随机变量,且相互独立,即e ~N (0,σ ),独立 j j 性意味着自变量xi 的一组特定值所对应的与xi 任意一组其他值所对应的不相关。正态性意 味着对于给定的xi 的值,因变量y 是一个服从正态分布的随机变量。 2 回归分析的数据处理 (1)统计检验。 在实际问题的研究中我们事先并不能断定因变量Y与自变量x1 、x2 、xp之间确有线性 关系,因而在进行回归参数的估计前我们用多元线性回归方程去拟合因变量与自变量之间的 关系,只是在一些定性分析的基础上所作的一种假设,因此当求出回归方程后还需要对回 归方程进行显著性检验检。检验的方法主要有: 1)拟合优度的检验计算R2 即样本决定系数以检验回归方程对样本观测值的拟合程度; 2)F检验就是要看自变量x1 、x2 、xp从整体上对因变量Y是否有明显的影响; 3)T检验即回归系数的显著性检验,检验每一个自变量对因变量的作用是否显著,如果 不显著则应将该自变量从回归方程中剔除。 (2 )异常值(Outlier)的判断与剔除(Rejection) 。 回归分析法在确定了数据符合正态分布以后,仍要对调查数据进行一定的处理,因为 调查数据不可避免地会产生部分异常值。所谓异常值,指样本中的个别值,其数值明显偏 离它(或他们)所属样本的其余观测值,也称异常数据,离群值。不加剔除地把异常值包括 进数据的计算分析过程中,对结果会带来不良影响。下面给出两个方法来剔除这些误差, 得到较为可靠的用于回归的数据。有缘学习更多+谓ygd3076考证资料或关注桃报:奉献教 育(店铺) 1)正态分布剔除法。 ①拉依达准则法(3σ)法则:是比较传统的判断方法,它以假定数据服从正态分布为前 提,给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随

文档评论(0)

恬淡虚无 + 关注
实名认证
内容提供者

学高为师,身正为范.师者,传道授业解惑也。做一个有理想,有道德,有思想,有文化,有信念的人。 学无止境:活到老,学到老!有缘学习更多关注桃报:奉献教育,点店铺。

1亿VIP精品文档

相关文档