偏度和峰度.docVIP

  • 65
  • 0
  • 约2.98千字
  • 约 5页
  • 2017-03-30 发布于重庆
  • 举报
偏度和峰度

偏度和峰度概念的认识误区 王学民 上海财经大学统计系 摘要:偏度和峰度的概念常常引起误解,甚至这种误解也常出现在概率统计的教科书中。本文对这两个概念的理解做了准确的阐述,并列举了两个例子来分别说明两个概念的认识误区。 关键字:偏度;峰度;认识误区 人们经常用偏度、峰度来描述随机变量或一组数据的分布形状,但在教学和实践中对这两个概念的认识上常常存在着较大的误区,错误认识也常出现在统计学(包括概率论与数理统计)方面的教科书中。 一、偏度概念的认识误区 随机变量的偏度定义为 (1) 它度量了分布的偏斜程度及偏向,是一个无量纲的数值。若,则称的分布是正偏(或右偏)的;若,则称的分布是负偏(或左偏)的。越大,说明分布偏斜得越厉害。偏度常常习惯地被不太确切地认为是反映了随机变量分布在众数两边的对称偏斜性,国内有许多统计教科书就是这样写的。实际上,分布在众数两边的对称偏斜性对偏度值的影响是比较有限的,对偏度值影响较大的倒是分布在其中一个方向上的尾部有拉长趋势的程度。因此,正(负)偏度往往更多反映的是分布在右(左)方向的尾部比在左(右)方向的尾部有拉长的趋势。 设是来自总体的一个样本,则总体的偏度可估计为 (2) 其中是样本均值,是样本标准差。若个数据组成一个有限总体,则该总体的偏度也按式(2)计算。本文后面的计算结果及图形都是使用SAS9的INSIGHT菜单子系统得到的。 例1 图1和图2是容量均为100的两组数据(数据请见本文附录)的频数直方图。从直观上看,图2的分布较图1在众数两边似乎更为偏斜,但根据式(2)的计算结果,图1和图2分布的偏度分别为2.4572和0.7053,即图1分布的偏度明显大于图2分布的偏度,其原因就在于图1的分布较图2在右方向的尾部有更明显的拉长趋势(相对于左尾,图1分布的右尾较图2离均值更远)。本例说明了将偏度描述为反映分布在众数两边的对称偏斜性的一个量是欠妥当的。 图1 图2 二、峰度概念的认识误区 峰度是另一个反映随机变量分布形状的量,随机变量的峰度定义为 (3) 它度量了分布尾部的厚度。同偏度一样,峰度也是一个没有量纲的数值。峰度的取值范围是[-2,∞]。正态分布的峰度为零。人们以正态分布为标准,若,则说明随机变量分布的尾部比正态分布的尾部粗,并且值越大,倾向认为尾部越粗;若,则说明分布的尾部比正态分布的尾部细,且值越大,倾向认为尾部越细。峰度可用来比较已标准化了的各随机变量分布的尾部厚度。 设是一组样本数据或一组有限总体数据,则其峰度的计算公式为 (4) 其中和的含义同前。 在统计学(包括概率论与数理统计)教科书中经常看到将峰度描述为反映分布在众数附近“峰”的尖峭程度的一个量。事实上,这种说法是错误的,我们可以通过下面的例2看清这一点。 例2 图3是将150个数据(数据请见本文附录)经标准化后画出的密度直方图,并拟合上了标准正态密度曲线。从图中可以看出,分布在众数附近“峰”的尖峭程度要远高于正态分布。但由式(4)计算得到的峰度值却为,小于正态分布的峰度值0。 图3 (作者单位:上海财经大学统计系) 参考文献 [1]《应用概率统计》,王学民编著,上海财经大学出版社,2005年10月。 附录 例1的数据: : 36.9 36.8 43.2 22.4 15.7 32.9 25.4 15.2 33.7 26.2 34.3 43.5 32 7 36.9 32.3 25.4 27.4 19.3 21.3 32.1 45.2 15.2 34.4 39.5 32.7 9.7 40.6 32.4 33.2 37.5 47.9 22.7 13.5 29.7 32.4 35.9 38.6 26.6 42.7 3.7 36.1 33.2 47.3 33.3 38.7 38.8 32.1 41.8 27 38.4 35.1 24.8 22.1 37 37.8 40.4 26.4 38.8 42.8 45.3 33 43.9 35.2 24 7.9 17.1 22.5 39 60 29.6 40.6 17.9 34.8 34.6 30.7 45 24.7 16.7 70 34.2 37.2 28.2 14.2 51.5 33 43.7 11.2 54.9 90 41.3 24.9 45.4 9.3 32.4 36.1 39.5 40.8 35.1 130 : 35 72 49 48 9 21 44 18 26 30 7 14 6 36 23 37 72 40 16 50 35 19 24 35 17 54 50 40 13 48 30 8 10 1

文档评论(0)

1亿VIP精品文档

相关文档