- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
着重探讨统计以及统计量的稳健性比较
摘要:本文笔者对几种常用的统计量进行着重探讨,结合实践提出稳健性的不足。同时给出几种稳健统计量,并与传统的统计量进行比较。通过比较来展现稳健统计量的优势及其应用价值。
关键词:稳健统计;统计量
1、前言
统计学作为一套科学原理和技术,统计是从众多数据中挖掘有用的信息,然后得出有关这个领域的某些特征或结论,进而用以指导实践,来创造更好的数据的科学。然而,传统的用以描述数据或数据分布特征的统计量在许多情况下都不具有很强的代表性,使得分析结果与实际不符,据此制定相关政策用于指导实践时,必定会产生不利于社会经济发展的情况。由于稳健统计方法不受实际数据是否服从正态分布条件的束缚,与传统的统计方法相比,具有更强的抵抗异常值影响的能力,更能够反映实际情况,所以它一问世就有着很强的生命力,并逐渐地被广泛应用于医学、生物学、化学以及地质学等领域,成为人们处理各种问题的重要思想和工具。
稳健统计的内容非常广泛,任何涉及到与实际问题和假定条件有偏离有关的传统统计方法中,都会有稳健统计成长的空间,都会有待于对传统统计方法进一步完善的必要。本文将主要分析几种代表总体平均水平的稳健统计量的稳健性,并与传统的统计量如样本平均数等进行比较,从而揭示稳健统计量的优势所在。由于篇幅所限,对稳健统计的其他方面的讨论不在本文范围之内。
2、统计量的稳健性比较分析
2.1传统统计量
人们普遍会感觉官方公布的人均收入或人均工资之类的指标明显偏高。进一步研究发现,除了统计误差和统计口径上的不同以外,对人均收入指标主观上认为偏高的主要原因在于收入分布是一种偏态的分布,而且随着贫富差异原因的增多,偏态有日益严重的态势。同时收入分布中存在着异常极端的离群大值,也会导致收入平均值的不正常上升。举一个极端一点的例子,如果收入数据中有一个值趋于无穷大,不管是由于操作失误还是实际情况的真实反映,据此计算出来的平均收入也会趋于无穷大,由此可见,运用非常普遍的平均数丝毫不具有抵御离群值的能力。这也就意味着在正态假定下性能表现非常良好的平均数,当实际数据并不是呈正态分布时所表现出的代表性不强的缺陷。这就引发人们去思考其他的统计量,要求这样的统计量满足以下两个条件:第一,当实际分布未知或虽然已知但不是正态分布时,这样的统计量应该能够比较好地描述所研究现象的实际情况;第二,当数据中存在正常的或是非正常的离群值时,这样的统计量不会偏离实际情况太远,也即不会因为离群值的存在而对所要说明的问题以及想要得出的结论造成灾害性的影响。
切尾均值是对均值的一种变通方法。均值对异常值或离群值非常敏感,它会由于数据集合中的一个或多个异常值的出现而失真。在这种情况下,离群值会使均值偏向自己的一方以寻找平衡点,因而也就歪曲了均值作为平均水平度量的意义。这时就需要对均值的计算方法进行适当的变通,使之较为稳健。通常用到的就是切尾均值,其做法是去掉最大的和最小的数据,然后对其余的作平均。
2.2几种稳健统计量
从数理角度分析,许多统计量都是通过极小化某一目标函数而得到的结果。例如熟悉的样本均值就是极小化目标函数Q(xi,t)=Eni=1(xi-t)2所得的t值,其中xi,i=1,,,n是某一独立同分布的样本,t是估计值,Q表示目标函数。解此问题的方法是先求Q关于t的导数7(在Q可导的情况下),7(xi,t)=Qc(xi,t)=Eni=1(xi-t)(去掉常数因子),然后求t,使之满足Eni=1(xi-t)=0。通过求解得t=Eni=1xiPn,也就是样本均值。同样,样本中位数是最小化目标函数Q(xi,t)=Eni=1|xi-t|的解。已经看到,基于残差平方目标函数的样本平均值的统计量对于离群值过于敏感,即由于经过平方,使得数据分布的尾部有太大的权数;而基于绝对残差目标函数的样本中位数虽然克服了样本平均值对离群值敏感的缺陷,但却对数据的中间估计值太敏感。于是,Huber(1964)提出了一种新的目标函数,作为样本平均值和样本中位数的折衷。这个目标函数就是极小化上述目标函数的解就是HuberM统计量。样本中位数和平均数分别是HuberM统计量的极端情况,k称作细调参数,它决定着Huber统计量的性质。在实际运用中选择适当的k,能给统计量在某个范围上合理的性能表现。k越小,Huber统计量越接近于样本中位数,即对离群值的抵抗能力就越强,反之,就越接近于样本平均值。Huber统计量是一种比较容易计算的稳健统计量,是对样本平均值的稳健性的提高和改善。但是与下面三种更稳健的M统计量相比较,Huber统计量的稳健性有时也不能够满足实际需要。
根据M统计量7函数(即目标函数的导数)的形状,人们把Huber统计量称作单调的,统计量,另
文档评论(0)