第8章虚拟变量回归课程.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八章 虚拟变量回归 教师:卢时光 本章的目的是考虑回归分析中引入定性解释变量的作用。定性变量(常被称为虚拟变量)的引入,使得线性回归模型成为一种极其灵活的工具,可以处理经验研究中许多有趣的问题。 8.1 虚拟变量的性质 在回归分析中,应变量不仅常受一些在明确的尺度上是量化好了的变量(如收入、产量、价格、成本、高度和温度)的影响,而且还受实质上是定性性质的变量(如性别、种族、肤色、宗教、国籍、战争、地震、罢工、政治动乱和政府经济政策变化)的影响。 例如,人们发现,在其他因素相同的情况下,西方大学中的女教授比男教授赚的钱要少;非白人比白人赚的钱要少。这种格局也许是性别或种族歧视的结果。 且不管什么理由,诸如性别和种族等定性变量确实影响着应变量,并且显然应被包含在解释变量的行列中。 由于这类定性变量常指某一“性质”或属性出现或不出现,比如男性或女性,黑色或白色,或者,天主教徒或非天主教徒。“量化”这些变量的一个方法,是构造一个取值1或0的人为变量,0表示某一属性不出现,而1表示该属性出现(或具备)。倒如,l表示某人是男性,0表示是女性;或者1表示某人是大学生,0表示不是。取这样0和1值的变量叫做虚拟变量。 在回归模型中使用虚拟变量和定量变量一样的容易。事实上,一个回归模型可以清一色地使用虚拟变量或定性(属性)变量作为解释变量。这样的模型被称为方差分析模型(AVOVA)。 考虑下列模型: 上述模型能够让我们发现性别是否会造成大学教授工资的差异。我们假定其他已知的变量例如年龄、学位和工作经验都保持不变。假定干扰项满足经典线性回归模型的假定: 截距项α给出学院女教授的平均工资;斜率系数β告诉我们学院男教授和女教授的平均工资的差额,α+β反映学院男教授的平均工资。按照平常的方法估计回归,并用t检验来看β是否在统计意义上是显著的,即检验“不存在性别歧视”这一虚拟假设(H0: β =0)。 例15.1:按性别划分的教授的工资 根据上面的数据,得到回归方程: 上述结果表明,学院女教授的平均工资为1.8万美元,而男教授的工资则为2.128 (=1.8+3.28)万美元。 回归结果中的t=7.439,说明 在统计上是显著的。表明男教授和女教授在工资上确实存在差异,事实上女教授的平均工资水平低于同等的男教授,我们可以认为在两种性别的工资中存在性别歧视。 顺便看一下回归的图形。 8.2 对一个定量变量和一个两分定性变量的回归 我们把模型修改如下: 模型中含有一个定量变量(教龄)和一个定性变量(性别:男或女)。一个模型中既含有一些定量变量又含有一些定性的解释变量,我们把它称为协方差分析模型(ANCOVA)。 上述模型的含义是: 女教授的平均工资: 男教授的平均工资: 从几何意义上来看,假定α10,我们得到下图所表示的情形: 模型设想学院男教授和女教授的工资是由其教龄决定的,用相同的斜率,但不同的截距。或者说,该模型假定男教授的平均工资水平和女教授的平均工资水平相差α2,但平均工资对教龄的变化率是一样的。 我们容易通过回归和t检验来看α2是否在统计上是显著的。如果α2在统计上是显著的,就拒绝学院男教授和女教授有同样平均工资水平的假设。 注意上述模型有下列特点: (1)为了区别两个类别,我们引入了一个虚拟变量Di。Di=1总指男性,Di=0是指女性。这样,一个虚拟变量足够区分两个类别。一般的规则是,如果一个定性变量有m个类别,则仅引入m-1个虚拟变量。 (2)在我们的例子中D的取值的分配是任意的,例如我们用D=1可以表示是男性也可以表示女性。因此,在解释涉及虚拟变量的模型的计算结果时,要知道1和0是怎样分配使用的。 (3)被赋予零值的那个组别、类别或级别常被称为基底、基准、对照、对比、参考或省略类。因为它是用以和其他类别作比较的基础。 (4)附着于虚拟变量D的系数α2 ,被称为级差截距系数,因为它告诉我们,取值1的类别的截距值和基底类的截距值相比有多少差别。 8.3 对一个定量变量和一个多分定性变量的回归 假设在横截面数据的基础上,我们想做个人保健支出对个人收入和教育水平的回归。由于教育变量是定性的,我们考虑相互排斥的三个教育水平:低于中学、中学和大学。现在不同于先前,我们的定性教育变量有多于两个的分类。按照虚拟变量的个数比变量分类数少一的规则,我们需要引进两个虚拟变量,以处理教育的三个水平。假定在保健年度支出对年度收入的回归中,三个教育分类有相同的斜率和不同的截矩,我们可以利用如下模型: 在模型中,我们人为的把“低于中学教育”类当做基底类。截距α1 代表该类的截距,截距级差α2 和α3 ,则表示另两类的截距与基底类的截距有多少差异。 下列式子分别表示低于中学、中学和大学三个教育水平的平均保

文档评论(0)

123****6648 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档