第四讲 模型设定和数据处理.ppt

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四讲 模型设定和数据处理

模型设定和数据处理 对模型本身的设定 在前面的模型中,我们都假设模型的设置是合理的: 1. 模型变量的选择:到底应该选取哪些变量? 2. 具体应该选取什么形式:对数、二次方、交乘项? 1. 遗漏变量偏差 遗漏变量与解释变量不相关 遗漏变量与解释变量相关(内生性) 2. 无关变量的加入 2. 部分回归图 一般一元线性模型可以利用线性拟合图观察二者模拟的优劣,但一般多元线性模型的多个解释变量之间可能相互影响,因此,需要求出每个变量对被解释变量的净的影响(剔除掉其他变量的影响)。 reg price mpg weight turn foreign avplots 嵌套模型 嵌套模型(大模型好还是小模型好) 方法1:利用test检验 例:下列两个模型哪个更优? lnwage=b0+b1*educ+b2*exper+b3*tenure lnwage=b0+b1*educ+b2*exper+b3*tenure+b4*educ^2+b5*exper^2 方法2:利用赤池信息准则和贝叶斯信息准则 选择最小的AIC和BIC estat ic 例1:逐步加入educ exper tenure nonwhite 对 lnwage的回归。 例2:在下列模型中选择一个最佳的。 lnwage=b0+b1*educ lnwage=b0+b1*educ+b2*educ^2 lnwage=b0+b1*educ+b2*educ^2+b3*educ^3 非嵌套模型: 两个方程包含的解释变量不相同或不完全相同 J检验和Cox检验:nnest 需要下载安装:findit nnest 例:比较下列两个模型的优劣: reg lnwage educ exper tenure reg lnwage educ exper nonwhite 遗漏高次项的检验 1。Link检验。基本思想:如果模型的设定是正确的,那么y的拟合值的平方项将不应具有解释能力。(不再显著) reg lnwage educ exper tenure linktest (或许是遗漏了重要的解释变量) reg lnwage educ exper tenure educ2 exper2 linktest 2。Ramsey检验。基本思想:如果模型设定无误,那么拟合值和解释变量的高阶项都不应再有解释能力。 use wage1,clear reg lnwage educ exper tenure estat ovtest(或许是遗漏了重要的解释变量) reg lnwage educ exper tenure educ2 exper2 estat ovtest 交乘项的引入: 现在的绝大多数模型都需要引入交乘项,以考虑不同变量之间的交互影响。例如: Y = b0+ b1*X1 + b2*X2 +u 引入交乘项之后: Y = b0+ b1*X1 + b2*X2 +b3(X1*X2)+u 分析:dY/dX2 = b2 + b3*X1 X2对Y的边际效果依赖于X1。 具体来说,如果X1系数为正,X1越大X2对Y的边际影响越大;如果X1系数为负,X1越大X2对Y的边际影响越小。 对样本点的判断和处理 残差的正态分布检验 reg price weight mpg turn foreign predict e, res kdensity e, normal (密度函数图) pnorm e (对中间部位敏感) qnorm e (对尾部敏感 ) sktest e (对偏度和峰度的检验) swilk e 残差分析和异常样本点的处理 对特殊样本点的检验和处理:离群样本点、杠杆样本点和关键样本点。 离群样本点:残差值较大的样本点 杠杆样本点:与样本整体(X’X)很不相同的少数样本点 关键样本点: 对回归结果有重要影响的少数样本点 图形分析 reg price weight mpg turn foreign lvr2plot(注意两条红线的含义) lvr2plot, mlabel(make) 离群值的获得 predict e, res list make e 杠杆值的获得 predict lev, leverage list make lev 通过排序方式找到离群样本点和杠杆值样本 predict lev1, leverage predict e1, res gen e2 = e1^2 gsort -lev1 list make price

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档