异常值的检验.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《实用回归分析》实验四 实验时间: 2019 年 11 月 20 日 实验项目: 异常值的检验一、实验目的及要求 目的:掌握异常值的识别。 要求:熟练掌握 SPSS 软件上机操作,能够识别异常值。二、实验内容 下表是 2016 年我国 31 个省、直辖市、自治区(不含港、澳、台)财政收入、地区生产总值两个宏观经济变量数据。 财政收入 地区生产总值 财政收入 地区生产总值 地区 y(亿元) x(亿元) 地区 y(亿元) x(亿元) 北京 5081 25669 湖北 3102 32665 天津 2724 17885 湖南 2698 31551 河北 2850 32070 广东 10390 80855 山西 1557 13050 广西 1556 18318 内蒙古 2016 18128 海南 638 4053 辽宁 2200 22247 重庆 2228 17741 吉林 1264 14777 四川 3389 32935 黑龙江 1148 15386 贵州 1561 11777 上海 6406 28179 云南 1812 14788 江苏 8121 77388 西藏 156 1151 浙江 5302 47251 陕西 1834 19400 安徽 2673 24408 甘肃 787 7200 福建 2655 28811 青海 239 2572 江西 2151 18499 宁夏 388 3169 山东 5860 68024 新疆 1299 9650 河南 3153 40472 (1)分析普通最小二乘是否存在异常值。 利用 SPSS 建立 y 与 x 的一元回归方程,分别计算普通残差 ei,学生化残差 SREi,删除残差 e(i),删除学生化残差SRE(i),中心化杠杆值chii,库克距离Di,见下表: 由上表知,回归方程为: y =127.380+0.107x。 从上表中,可以看到绝对值最大的学生化残差为 SRE9=3.52248,大于 3,因而根据学生化残差诊 断认为存 在异常值 。绝对值最 大的删 除学生化残 差为SRE(6)=4.57589,大于 3,对应为上海(第 9 个)的数据,因此判断它为为异常值。上海(第 9 个)的数据的中心化杠杆值为 chii=0.00075,不是第一大,且上海( 第 9 个) 的数据 chii=0.000752 ch =1/31*2=0.06452 , 且库克距离为D9=0.211770.5,因而上海(第 9 个)的数据不是自变量的异常值,故上海(第 9 个)的数据为异常值的原因是由因变量异常引起的。从而存在异常值。 (2) 删除北京和上海两个直辖市的数据,重新做普通最小二乘回归。是否还有异常值。 删除北京和上海两个直辖市的数据后,再利用 SPSS 建立 y 与 x 的一元回归方程, 分别计算普通残差 ei,学生化残差 SREi,删除残差 e(i),删除学生化残差 SRE(i), 中心化杠杆值 chii,库克距离 Di,见下表: 从表中看到绝对值最大的学生化残差为 SRE19=3.80965,大于 3,因而根据学生化残差诊断认为存在异常值。绝对值最大的删除学生化残差为 SRE(19)=5.4973,大于 3,对应为广东(第 19 个)的数据,因此判断它为为异常值。广东(第 19 个 ) 的 数 据 的 中 心 化 杠 杆 值 为 chii=0.25714 , 由 于 chii=0.257142 ch =1/29*2=0.06897 是第一大,且库克距离为 D19=2.987481,是位于第一大,故广东(第 19 个)的数据为异常值的原因是由因变量和因变量异常共同引起的。从而存在异常值。 (3)删除北京和上海两个直辖市的数据,做加权最小二乘回归。分析加权最小 二乘回归的效果。此时是否还有异常值? 删除北京和上海两个直辖市的数据 用 SPSS 建立 y 与 x 的加权最小二乘回归: 当 m=1.5 时,对数似然函数达到最大为-210.725,则 m=1.5 为幂指数最优取值。 对数似然值b -2.000 -259.313 -1.500 -249.910 -1.000 -240.926 -.500 -232.525 .000 -224.873 .500 -218.235 1.000 -213.272 1.500 -210.725a 2.000 -210.823 复相关系数 .977 R 方 .954 调整 R 方 .952 估计的标准误 .238 对数似然函数值 -210.725 平方和 df 均方 F Sig. 回归 31.564 1 31.564 555.613 .000 残差 1.534 27 .057 总计 33.097 28 分析加权最小二乘回归的效果:加权最小二乘的 R 方=0.954,F 值=

文档评论(0)

暗伤 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档