- 1、本文档共85页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章 线性回归的定式偏差 §5.1变量关系非线性 §5.2异常值、规律性扰动、参数变化和虚拟变量回归 §5.3解释变量遗漏和包含无关解释变量 §5.1变量关系非线性 二、发现与判断 三、问题的处理和非线性回归 第一步是恢复变量之间的真实函数关系; 第二步是设法通过幂函数、对数化等数学变换等,把非线性关系转化为正确的线性回归模型。 当函数无法通过初等数学变换转化为线性模型时,需要直接处理非线性回归模型。 泰勒级数展开 例5-1某地消费函数表5.1 某地消费函数相关数据 年度YC年度YC年度YC 1950 791.8 733.21962 1170.2 1069.01974 1896.6 1674.0 1951 819.0 748.71963 1207.3 1108.41975 1931.7 1711.9 1952 844.3 771.41964 1291.0 1170.61976 2001.0 1803.9 1953 880.0 802.51965 1365.7 1236.41977 2066.6 1883.8 1954 894.0 822.71966 1431.3 1298.91978 2167.4 1961.0 1955 944.5 873.81967 1493.2 1337.71979 2212.6 2004.4 1956 989.4 899.81968 1551.3 1405.91980 2214.3 2000.4 1957 1012.1 919.71969 1599.8 1456.71981 2248.6 2024.2 1958 1028.8 932.91970 1688.1 1492.01982 2261.5 2050.7 1959 1067.2 979.41971 1728.4 1538.81983 2334.6 2145.9 1960 1091.1 1005.11972 1797.4 1621.91984 2468.4 2239.9 1961 1123.2 1025.21973 1916.3 1689.61985 2509.0 2312.6 根据对上述散点图的直观判断,对消费和收入进行线性回归分析基本上是合理的。 但是,如果我们进一步通过该回归结果窗口的菜单操作得到下列残差序列图,可以发现该回归残差序列显示出明显的规律性变化,包含了明显的趋势性。 可以考虑变量之间存在非线性关系的可能,因此可考虑采用非线性最小二乘回归。 §5.2 异常值、规律性扰动和虚拟变量回归 一、异常值 二、规律性扰动 三、虚拟变量回归 异常值现象 现实经济中常常存在这样的情况,一些突发事件或变化对经济活动、经济关系造成短暂的,但却是很显著的冲击影响。 这些影响既不能被看作微小的随机扰动,但又不会决定或改变长期的经济关系,或者说经济规律。 这种情况在经济数据上反映出来,就会表现为一个脱离基本趋势的异常值。 异常值的发现判断 发现和判断异常值的方法之一是分析经济问题的相关背景情况,包括对经济现象、相关社会经济事件以及数据序列的直接分析等。 残差序列分析也是从技术角度发现和判断异常值问题的基本方法。 因为异常值只是个别情况,最小二乘估计仍然是一致估计量,回归残差中会包含由于异常值所导致模型误差项均值非0的信息。 回归残差序列分析发现和判断异常值问题的方法 图 异常值的残差序列图检验 如果有个别 坐标落在两条临界线的范围以外,就意味着在i 时点上有异常值。 此外,上述残差序列判断异常值的临界值标准是95%置信度的,当 的绝对值落在2到3之间时,用95%的置信度判断有异常值,而用99%的置信度判断则可能没有异常值,因此仍然存在模糊的地方。 问题的处理 解决的方法是引进一个针对性的虚拟变量D,其定义式为: 在引进虚拟变量D 的新模型中,异常值就不会造成模型误差项出现均值非0的问题了,从而可以保证回归分析的有效性。 [例] 消费函数模型的异常值问题 残差序列图分析 根据图中的残差分布可以看出,1996、2001和2002年的回归残差绝对值,都大于2倍的残差标准差,因此可能属于异常值。 由于相比之下1996、1999、2000和2001四年的残差偏离更大,而在去掉这几年趋势以后的其余年份基本上都在长期趋势上,因此考虑引进四个虚拟变量。 再看引进虚拟变量后回归的下列残差序
文档评论(0)