第3章 牵多元线性回归模型
第3章 多元线性回归模型 1、参数的最小二乘估计 2、参数和模型的检验 3、预测 4、非线性模型的处理 补充:样本回归方程与总体回归方程区别 总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。 总体回归方程中的β1和β2是未知的参数,表现为常数。而样本回归函数中的 是随机变量,其具体数值随所抽取的样本观测值不同而变动。 总体回归方程中的ut是Yt与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的et是Yt与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出et的具体数值。 为什么使用多元线性回归估计? 1、一元线性回归模型假定所有其他影响被解释变量y的因素都与解释变量x无关,这一假定通常与现实不符。 例如,我们考虑教育对小时工资的影响: 如果用一元线性回归,就必须将工作经历(exper)放到误差项中,同时假定工作经历与受教育水平无关,这一假定显然不符合事实。 为什么使用多元线性回归估计? 2、多元回归分析允许我们明确地控制许多其他也同时影响被解释变量y的因素。 一方面,如果在回归模型中多增加一些有助于解释y的因素,那么,y的变动就能更多得到解释。 另一方面,多元回归模型中的回归系数是在固定其他解释变量(即保持其他因素不变)的情况下研究两个变量之间的关系,所得结果更加科学。 ——多元线性回归模型是经济学和其他社会科学进行经验分析时使用得最广泛的一个工具。 对多元回归方程的解释——其他条件不变下的影响 我们来看含有两个解释变量的情况: 从上式可以得到: 在给定x1和x2的变化的情况下,能够预测y的变化。特别是当x2固定时,因而⊿x2=0时,于是, 通过将x2包含在方程中,我们所得到的x1的系数,可解释为在其他条件不变下的影响! 关于“修正的决定系数” 修正的R2的主要优点在于:它为在一个模型中随意增加自变量施加了惩罚,当自由度过小时,该指标会非常小,而R2则往往很大。 当增加新变量时,当且仅当新变量的t检验的绝对值大于1,修正的R2才会增加。 当在自变量数目不同的模型间进行选择时,修正R2更适合作为选择标准。 “决定系数”多大才算好? 对于决定系数(拟合优度),没有一个标准来说明,决定系数小到什么程度,就是不可接受的。对于时间序列数据而言, R2大于0.9也很正常;对于横截面数据而言, R2等于0.5也不算小。 3.2.2 偏相关系数 1、偏相关系数:表示在其它M-2个变数都保持一定时,指定的两个变数间相关的密切程度。 偏相关系数以r 带右下标表示。如有X1、X2、X3 3个变数,则r12·3表示X3变数保持一定时,X1和X2变数的偏相关系数; 若有M 个变数,则偏相关系数共有M(M-1)/2个。 偏相关系数的取值范围是[-1,1]。 5.成长曲线模型 可简化为 第3章 多元线性回归模型 若干补充 1、诸解释变量与被解释变量之间的关系 (1)解释变量与被解释变量之间存在因果关系,解释变量是因,被解释变量是果。这是前提!在理论上没有任何关联的两列数据放在一起回归,也可能得到统计上显著的结果,但没有任何意义。需要注意的是,微观数据的因果关系比较清晰,比如受教育水平是因,工资水平是果。宏观数据的因果关系往往不清晰,比如投资与GDP,是互为因果的关系。 (2)解释变量只有与被解释变量存在较大的相关系数之时,其回归系数才可能在统计上显著。因此,在回归中加入与被解释变量不相关的解释变量之时,该变量往往通不过t检验,且会导致 下降。 2、解释变量相互之间的关系 (1)诸解释变量之间,可以不存在任何的相关性,如在对数工资方程中, female、married和nonwhite之间均不存在相关性。 (2)也可以存在一定的相关性,如female与educ以及nonwhite与educ之间通常是具有某些相关性的。 (3)但是解释变量之间不能出现完全的相关性,也不能存在很大的相关性。也就是说,反映同一个特征的解释变量,只能有一个!如果包含过多,就会导致多重共线性。比如你要将企业规模作为解释变量放入回归方程,那么你只能在企业员工数和企业总资产和企业营业收入等能够反映企业规模的变量之中选择一个。 3、解释变量与控制变量的区别 解释变量与控制变量都是自变量,为了突出研究的问题进行了区分。 解释变量是指着重研究的自变量,是研究者重点考查对因变量有何影响的变量。 而控制变量是指与特定研究目标无关的非研究变量,即除了研究者重点研究的解释变量和需要测定的因变量之外的变量,是研究者不想研究,但会影响研究结果的,需要加以考虑的变量。 比如,在标准的工资方程: 如果你研究的课题是教育对工资的影响,那
原创力文档

文档评论(0)