- 0
- 0
- 约9.39千字
- 约 15页
- 2019-04-19 发布于湖北
- 举报
PAGE 1
PAGE 15
第八章 单方程回归模型的几个专题
8.1虚拟变量(dummy variable)
8.1.1 概念与用作
在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质等因素的影响。这些因素也应该包括在模型中。为此人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与数值变量一样在回归模型中得以应用。
构造的规则是当某种属性存在时,人工变量取值为1;当某种属性不存在时时,取值为0。在计量经济学中,我们把反映定性因素变化,取值为0或1的人工变量称为虚拟变量。习惯上用D表示。如:
D=
D=
1 城镇居民
0 农村居民
D=
1 男性
0 女性
D=
1 就业
0 失业
引入虚拟变量的作用主要有三个:1)可以描述定性因素的影响;2)能够正确反映经济变量的相互关系,提高模型的精度;3)便于处理异常数据。当样本资料中存在异常数据时,一般有三种处理方式。一是直接剔除;二是平滑掉;三是设置虚拟变量。
8.1.2 虚拟变量的设置
1、设置规则
1)一个因素多个属性:若定性因素有M个不同的属性,或相互排斥的类型,在模型中则只能引入M-1个虚拟变量,否则会引起完全多重共线性。
2)多个因素多个属性:每个因素的引入方法均按上述原则。
2、引入方式:
1)加法方式(截距移动)
设有模型,
yt = ?0 + ?1 xt + ?2D + ut ,
其中yt,xt为定量变量;D为定性变量。当D = 0 或1时,上述模型可表达为,
yt =
D =0 D
D =0
D = 1
?0
?0+?2
图8.1 测量截距不同
D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若?2显著不为零,说明截距不同;若?2为零,说明这种分类无显著性差异。
例:中国成年人体重y(kg)与身高x(cm)的回归关系如下:
–105 + x D = 1 (男)
y = - 100 + x - 5D =
– 100 + x D = 0 (女)
注意:
① 若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap)。
② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。
③ 定性变量中取值为0所对应的类别称作基础类别(base category)。
④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如:
1 (大学)
D = 0 (中学)
-1 (小学)。
例1:市场用煤销售量模型(file: Dummy1)
我国市场用煤销量的季节性数据(1982-1988,《中国统计年鉴》1987,1989)见下图与表。由于受取暖用煤的影响,每年第四季度的销售量大大高于其它季度。鉴于是季节数据可设三个季节变量如下:
1 (4季度) 1 (3季度) 1 (2季度)
D1 = D2 = D3 =
0 (1, 2, 3季度) 0 (1, 2, 4季度) 0 (1, 3, 4季度)
全国按季节市场用煤销售量数据(file: Dummy1)
季度
Yt
t
D1
D2
D3
季度
Yt
t
D1
D2
D3
1982.1
2599.8
1
0
0
0
1985.3
3159.1
15
0
1
0
1982.2
2647.2
2
0
0
1
1985.4
4483.2
16
1
0
0
1982.3
2912.7
3
0
1
0
1986.1
2881.8
17
0
0
0
1982.4
4087.0
4
1
0
0
1986.2
3308.7
18
0
0
1
1983.1
2806.5
5
0
0
0
1986.3
3437.5
19
0
1
0
1983.2
2672.1
6
0
0
1
1986.4
4946.8
20
1
0
0
1983.3
2943.6
7
0
1
0
1987.1
3209.0
21
0
0
0
1983.4
4193.4
8
1
0
0
1987.2
3608.1
22
0
0
1
1984.1
3001
原创力文档

文档评论(0)