网站大量收购独家精品文档,联系QQ:2885784924

回归分析中异常值的诊断与处理-论文大赛.docVIP

回归分析中异常值的诊断与处理-论文大赛.doc

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
回归分析中异常值的诊断与处理-论文大赛

回归分析中异常值的诊断与处理 1 引言 对调查得到的大量原始数据进行加工处理,提取其中有用的信息,即统计整理,是进一步进行统计分析的前提.但是通常的统计整理方法往往都对样本数据有一个前提假设,即样本数据是来自同一个总体,而这个假设有时却不能成立.原因一是由客观因素造成的,如总体条件的突然变化或人们未知的某个因素的突然出现等等;二是由主观方面的因素造成的,即人为的差错如调查人员读错或抄错数据,不小心把另一些不同条件下的样本数据混杂进来.当样本中的个别数据明显的偏离样本中其余数据时,这些数据可能是来自不同的总体,我们称这样的数据为异常数据.若对混有异常数据的样本按常规进行统计整理、分析、推断,往往会得出不符合实际的结论.本文就样本中的异常数据提出了诊断方法和处理方法,并结合实例说明了简单回归中上述方法的具体应用. 2 异常值的概念 所谓异常值就是在所获统计数据中相对误差较大的观察数据,也称奇异值(Outliers).狭义地定义异常值就是一批数据中有部分数据与其余数据相比明显不一致的数据,也称离群值. 社会经济统计中一切失实数据统称为异常值.由于人为或随机因素的影响,失实的数据随时都有可能出现,因而统计数据中的任何一个都有可能成为异常值,而狭义界定的异常值是指离群值,如果把统计数据按由小到大排列,若有异常值,它必位于其数据的两端,左端称为异常小值,右端的称为异常大值. 残差:考虑线性回归模型 ,,. 其中 ,,,. 分量形式为 ,.   定义为残差向量,其中称为拟合值向量,为在模型下的最小二乘估计.如果用表示的个行向量,则称 , , 为第次试验或观测的残差.对简单回归,,,. 则,,其中. 于是,异常值就是在回归分析中,一组数据如果它的残差较其它组数据的残差大的多,则称此数据为异常值. 异常值的出现有主客观的原因.主观上抽样调查技术有问题,疏忽大意记错,或人为的虚报,谎报数据等都可能导致异常数据,这直接影响了统计数据的质量;客观上某些样品由于特定原因在某些变量上的确表现突出,明显超出平均水平,这也可能产生异常值. 异常值的存在必将导致相应统计分析误差增大,会对分析结果(平均值与标准差)产生重要影响,会降低测量的精度.如果不预先处理它们,用通常的统计整理方法所得出的结论可靠性差.而异常值的诊断与处理是保证原始数据可靠性,平均值与标准差计算准确性的前提. 异常值的诊断方法 在讨论异常值诊断问题时,通常要假设所得样本观测值在某中意义下遵从一定的分布规律.拿到一批数据,若能从其实际背景中明确看出它服从某中分布形式时,一般的做法是在这种分布假设下,导出能较好反映异常值与正常值差异的统计量,在没有异常值的原假设下作假设检验. 以下给出两种检验方法. F分布检验法 学生化残差:考虑线性回归模型,记,称为拟合值向量,称其第个分量为第个拟合值,则 , 这里.文献中通常称为帽子矩阵.前面已经定义了 , , 为第次试验或观测的残差.将其标准化为,再用代替,得到所谓学生化残差 , , 这里为的第个对角元,. 把正态线性回归模型改写成分量形式 ,,, 这里,相互独立.如果第组数据是一个异常点,那么它的残差就很大.它的残差之所以很大是因为它的均值发生了非随机性漂移.从而.这产生了一个新的模型           记.将模型改写成矩阵的形式 , ,        模型和称为均值漂移线性回归模型.要判定不是异常点,等价于检验假设. 引理 用,和分别表示从、和剔除第行所得到的向量或矩.从线性回归模型剔除第组数据后,剩余的组数据的线性回归模型为 ,,.      将从这个模型求到的的最小二乘估计记为,则 . 证明:因为.    设为可逆阵,均为向量.用恒等式 有 ,       这里为的第行.将上式两边右乘,并利用 以及式,有 .   将式右乘,可以得到如下关系式 . 将其代入式,得到 . 引理 对均值漂移线性回归模型,和的最小二乘估计分别为 和, 其中为从非均值漂移线性回归模型剔除第组数据后得到的的最小二乘估计.,为的第个对角元.为从模型导出的第个残差. 证明:显然,,.记.则. 于是,根据定义. 根据分块矩阵的逆矩阵公式(见附录),以及 . 再由引理知命题得证. 现在应用引理来求检验的检验统计量.注意到,对现在的情形,在约束条件下,模型就化为模型,于是 模型无约束情形下的残差平方和 . 而模型的无约束残差平方和 .      利用引理得 这

文档评论(0)

busuanzi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档