- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《实用回归分析》实验四
实验时间: 2019 年 11 月 20 日 实验项目: 异常值的检验一、实验目的及要求
目的:掌握异常值的识别。
要求:熟练掌握 SPSS 软件上机操作,能够识别异常值。二、实验内容
下表是 2016 年我国 31 个省、直辖市、自治区(不含港、澳、台)财政收入、地区生产总值两个宏观经济变量数据。
财政收入 地区生产总值 财政收入
地区生产总值
地区
y(亿元)
x(亿元)
地区
y(亿元)
x(亿元)
北京
5081
25669
湖北
3102
32665
天津
2724
17885
湖南
2698
31551
河北
2850
32070
广东
10390
80855
山西
1557
13050
广西
1556
18318
内蒙古
2016
18128
海南
638
4053
辽宁
2200
22247
重庆
2228
17741
吉林
1264
14777
四川
3389
32935
黑龙江
1148
15386
贵州
1561
11777
上海
6406
28179
云南
1812
14788
江苏
8121
77388
西藏
156
1151
浙江
5302
47251
陕西
1834
19400
安徽
2673
24408
甘肃
787
7200
福建
2655
28811
青海
239
2572
江西
2151
18499
宁夏
388
3169
山东
5860
68024
新疆
1299
9650
河南
3153
40472
(1)分析普通最小二乘是否存在异常值。
利用 SPSS 建立 y 与 x 的一元回归方程,分别计算普通残差 ei,学生化残差 SREi,删除残差 e(i),删除学生化残差SRE(i),中心化杠杆值chii,库克距离Di,见下表:
由上表知,回归方程为: y =127.380+0.107x。
从上表中,可以看到绝对值最大的学生化残差为 SRE9=3.52248,大于 3,因而根据学生化残差诊 断认为存 在异常值 。绝对值最 大的删 除学生化残 差为SRE(6)=4.57589,大于 3,对应为上海(第 9 个)的数据,因此判断它为为异常值。上海(第 9 个)的数据的中心化杠杆值为 chii=0.00075,不是第一大,且上海( 第 9 个) 的数据 chii=0.000752 ch =1/31*2=0.06452 , 且库克距离为D9=0.211770.5,因而上海(第 9 个)的数据不是自变量的异常值,故上海(第
9 个)的数据为异常值的原因是由因变量异常引起的。从而存在异常值。
(2) 删除北京和上海两个直辖市的数据,重新做普通最小二乘回归。是否还有异常值。
删除北京和上海两个直辖市的数据后,再利用 SPSS 建立 y 与 x 的一元回归方程, 分别计算普通残差 ei,学生化残差 SREi,删除残差 e(i),删除学生化残差 SRE(i),
中心化杠杆值 chii,库克距离 Di,见下表:
从表中看到绝对值最大的学生化残差为 SRE19=3.80965,大于 3,因而根据学生化残差诊断认为存在异常值。绝对值最大的删除学生化残差为 SRE(19)=5.4973,大于 3,对应为广东(第 19 个)的数据,因此判断它为为异常值。广东(第 19 个 ) 的 数 据 的 中 心 化 杠 杆 值 为 chii=0.25714 , 由 于 chii=0.257142 ch
=1/29*2=0.06897 是第一大,且库克距离为 D19=2.987481,是位于第一大,故广东(第 19 个)的数据为异常值的原因是由因变量和因变量异常共同引起的。从而存在异常值。
(3)删除北京和上海两个直辖市的数据,做加权最小二乘回归。分析加权最小 二乘回归的效果。此时是否还有异常值?
删除北京和上海两个直辖市的数据
用 SPSS 建立 y 与 x 的加权最小二乘回归:
当 m=1.5 时,对数似然函数达到最大为-210.725,则 m=1.5 为幂指数最优取值。
对数似然值b
-2.000
-259.313
-1.500
-249.910
-1.000
-240.926
-.500
-232.525
.000
-224.873
.500
-218.235
1.000
-213.272
1.500
-210.725a
2.000
-210.823
复相关系数
.977
R 方
.954
调整 R 方
.952
估计的标准误
.238
对数似然函数值
-210.725
平方和
df
均方
F
Sig.
回归
31.564
1 31.564
555.613
.000
残差
1.534
27 .057
总计
33.097
28
分析加权最小二乘回归的效果:加权最小二乘的 R 方=0.954,F 值=
文档评论(0)