回归分析回归诊断课件.ppt

下载文档

2
0
约3.1千字
约 120页
2019-09-08 发布于江苏
举报
版权申诉
保障服务

回归分析回归诊断课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

回归分析回归诊断; 通过简单回归和多元回归模型可以有了计算结果。这些结果能做推断，需要建立在一些概述性统计量的基础之上，这些统计量由数据来计算。而只有当标准的回归假定满足时，所做的推断才有可能是合理的，有意义的。而对假定的核定，可以用图形的方法，也可以用严格的数值去检查。数据也需要考虑还有模型的设定;;标准的回归假定：;数据的诊断异常值强影响点假定是否满足模型的诊断;*;异常点的识别与处理，是统计诊断中很重要的一项内容。异常点的出现会影响分析结果的可信度。异常点的存在往往蕴涵着重要的信息。在有些情况下，异常点的出现是因为有新事物出现或者新情况发生，比如经济模型中某种经济政策的出台等，都能表现出异常，这通常是我们的研究兴趣所在。;在另外一些情况下，异常点的出现是由于人为差错或者仪器的故障所引起的。在我们需要根据样本对模型进行参数估计或者根据模型对将来进行预测与控制的时候，异常点的出现会对我们的工作产生很强的影响，这样的结果是令人怀疑的。因此，异常点的研究受到了广大研究者的重视，自Bernoulli首次提出了异常点的概念，接下来对异常点的概念、类型以及处理问题的讨论一直没有停止过。;异常点的成因与处理;;;回归系数一般采用“最小二乘估计”（least squares estimator,LS estimator）求解，但是在应用中容易忽视的问题是LS估计只有在数据满足相应条件的情况下才会具有统计描述和推断的优良性质，如要求误差服从正态分布、总体方差相同且相互独立等。当实际数据没有近似满足这些假定时，就会出现一些异常点（outliers）、杠杆点（leverage point）及影响点(influential observations),使分析结果变得不可靠，不能发现数据中的真实结构，从专业上难以解释结果，甚至得到完全错误的结论。尤其是随着统计软件的日渐普及，我们倾向于简单地将数据交给软件来分析，而不注意具体方法的应用条件，尽管采用了SAS、SPSS这些国际标准软件，但是输出结果有时却与专业解释相悖。;异常点在统计诊断中的地位;;;;异常值有时一个，有时多个;;;残差;残差;;强影响点;;;;;;;;数据集中的强影响点是指那些对统计量的取值有非常大的影响力的点。在考虑强影响点时，有几个基本问题需要考虑：首先必须明确“是对哪个统计量的影响？”例如，对线性回归模型所考虑的是对回归系数的估计量的影响；不是对误差方差的估计影响；或是对拟合优度统计量的影响等等。分析目标不同，所考虑的影响亦有所不同。 ;其次，必须确定“度量影响的尺度是什么？”为了定量地刻划影响的大小，迄今为止已提出多种尺度，基于置信域的尺度，基于似然函数的尺度等等。在每一种类型中又可能有不同的统计量。每一种度量都是着眼于某一方面的影响，并在某种具体场合下较为有效。这一方面反映了度量影响问题的复杂性，另一方面也说明了影响分析的研究在统计诊断中是一个甚为活跃的议程。 ;;有影响的观测值(图示);有影响的观测值(图示);有影响的观测值(图示);有影响的观测值(图示);有影响的观测值(图示);;;;;;;但看标准化残差看不出来;残差图也看不出来;杠杆值的序列图可以看出来了;;我们还需要相关的度量指标;;影响的各种度量;;;;;通过图显示强影响点;;;图形方法;图形方法的作用;图形;一维图;二维图;;;;;;旋转图;如何处理异常点?; 图中是XY两个变量的散点图，数据主体显示了X与Y之间的某种线性关系。但右上角的22和23两个点是异常值。如果这两个点是正确的，那么它们则是数据集中仅有的、显示着这批数据可能服从某种非线性模型的观测。我们把这想象为一个细菌的群体，它在异端时间内最后的非常缓慢，但过了某个时间的临界点之后，迅速增长。;一旦鉴别出了异常点和强影响观测后，如何处理呢？因为异常点和强影响观测可能是数据集中信息最丰富的观测，因而不应该不加说明、自动地抛弃它们。相反，应当通过考察，判断它们为何是异常的或强影响点。根据这些考察才可能采取合适、正确的措施正确的措施包括：改正数据中的错误、删除异常点或降低他们的权重、变换数据、考虑不同的模型、重新收集或补充更多的数据。;模型的误设及其后果; 设 Y=?0+ ?1X1+v (*) 为正确模型，但却估计了 Y=?0+?1X1+?2X2+? (**); 由于所有的经典假设都满足，因此对 Y=?0+?1X1+?2X2+? (**) 式