关于模型回归及STATA运算报告的一些总结及疑问.docVIP

下载本文档

26
0
约2.09千字
约 2页
2020-08-11 发布于河北
举报
版权申诉

关于模型回归及STATA运算报告的一些总结及疑问.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

注：上面这些是本人经过运算验证和网络收集而整理的，不具权威性，有错误希望有人能指出，共同学习、改进。用蓝色标注的部分尚有疑问，希望有人知道答案的话能回执给本人一下，其他未尽项目，也请帮忙总结，共同分享，不胜感谢！ ——于浩伟（brighter.yhw@）一、区分标准误（Sdt.Err.）和标准差（Std.）： Std.Err.：（龚老师说= Var(βj)，有待确定），也记为SEx，=S/n，它是样本平均数的标准差，亦称样本平均数的标准误或简称标准误，其中S为样本的标准差，是STATA对应每个系数右方给出的值，它反映了样本平均数的离散程度。标准误越小，说明样本平均数与总体平均数越接近， Std.：Var(βj)，=σ=1n1nx-μ2，称为标准差，是总体方差的开平方，它不同于Sdx 标准差是表示个体间变异大小的指标，反映了整个样本对样本平均数（我觉得是对总体平均数μ吧）的离散程度，是数据精密度的衡量指标；而标准误反映样本平均数对总体平均数的变异程度，从而反映抽样误差的大小，是量度结果精密度的指标。标准误越小，那么抽样误差就越小，就表明所抽取的样本能够较好地代表样本。 Root MSE（ Mean Square Error）：在相同观测条件下的一组真误差平方中数的平方根。因真误差不易求得，所以通常用最小二乘法求得的观测值改正数来代替真误差。它是观测值与真值偏差的平方和观测次数n比值的平方根。一般不用管这项。（我可能听错了，龚老师说它就是总体标准差？但总体标准差是无法通过样本测算出来的。）二、一个例子：打开数据bwght.DATA，并在命令栏中输入下列指令：reg faminc cigs fatheduc motheduc，就会得到如下结果报告：对STATA运行结果报告中各项目的解释： SS是平方和，它所在列的三个数值分别为回归误差平方和（SSE）、残差平方和（SSR）及总体平方和（SST），即分别为Model、Residual和Total相对应的数值。 df（degree of freedom）为自由度，它在数学中表示能够自由取值的变量个数，如有3个变量x、y、z，但若存在一个约束条件：x+y+z=18，则其自由度为2。在统计学中，自由度指的是计算某一统计量时，取值不受限制的变量个数。通常df=n-k。其中n为样本含量，k为被限制的条件数或变量的个数，或计算某一统计量时用到其它独立统计量的个数。 MS为SS与df的比值，与SS对应，SS是平方和，MS是均方，是指单位自由度的平方和。它跟SS一样，也是表述数据变动趋势的。一般不用管这一项。 Number of obs：样本数。 F(k, n)：F统计量的数值，其中k为约束条件的个数（即同时检验k个解释变量的系数为0），n=样本数-解释变量个数-1。通常，若无法拒绝原假设，F的值都比较小，接近于0。若可以拒绝原假设时，F检验的值都比较大，本例中F(k, n)=122，说明通过了F检验，即可以拒绝原假设，说明模型整体具有显著性。注：在回归之后F检验给出的默认值为针对全部解释变量的系数都为0的假设检验的F值，即为模型整体显著性的检验。要想单独检验解释变量X1、X2是否具有显著影响，还要手动输入指令“test X1 X2”或“test (X1=0)( X2=0)”（详见Lecture-7）。 Pro F：模型整体F检验所对应的P值（小于α则拒绝原假设）。 R2（判定系数，=SSE/SST），=SSE/SST，它表明的是模型的拟合优度（越接近1说明模型拟合得越好），且有(1-R2)*SST=SSR。 Adj R-square：根据样本数量和自由度调整后的样本R-Square，考虑了自变量（独立变量）数目的影响，一般也不用管一项。 Root MSE：见一中有关解释。根据t检验的公式，t=(βj-aj)se(βj)，而在上面的结果报告中，βj是coef对应解释变量的系数，而se(βj)就是std.Err.对应的数值，两者相除，就得到t 三、回归模型常见问题及可能的解决方法自相关：即E(ui|uj) ≠0，它指模型的误差项之间存在相关性。处理方法为寻找遗漏的显著的解释变量、尝试其它函数形式、差分法、自回归法、移动平均法等。内生性：即E(u|x) ≠0，通常指两个或多个变量之间具有相互决定的作用。这里多指模型的随机扰动项与解释变量之间存在相关关系。引起内生性的原因为测量误差或遗漏的某些变量。处理方法是寻找可能遗漏的变量。注：任何两变量之间在多数情况下都不是单方面的决定作用，而是相互决定的作用。包括解释变量与因变量之间、解释变量之间，以及解释变量与随机扰动项之间，都可能具有内生性。解释变量与随机扰动项之间具有内生性，称为？？？；解释变量之间具有内生性，又称为具有多重共线性；解释