第3章数据分布特征的描述.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第3章数据分布特征的描述

峰度系数 原理:分布曲线的尖峭程度与偶数阶中心矩的数值大小有直接关系。以四阶中心矩m4为基础,为了消除量纲的影响,再除以标准差的四次方σ4所得到的相对数即可衡量峰度。 3-* 当K=0时,分布曲线为正态曲线; 当K>0时,为尖顶曲线,表示数据比正态分布更集中在均值附近;K的数值越大,则变量分布曲线之顶端越尖峭; 当K<0时,为平顶曲线,表示数据比正态分布更分散;K的数值越小,则变量分布曲线之顶端越平坦。 对于正态分布曲线有: m4 /σ4=3,故峰度系数为: 【例3-13】 根据表3-3的数据,计算使用寿命分布的偏度系数和峰度系数。 解: 3-* 计算结果表明,偏度系数几乎为0,峰度系数略小于0,说明该产品使用寿命的分布十分接近对称分布,分布曲线顶峰略比正态分布平坦一些。总的说来,该产品的使用寿命的分布非常接近正态分布。 本章小结 测度集中趋势的各指标的含义、计算方法、特点和应用场合 测度离散程度的各指标的含义、计算方法、特点和应用场合 偏度与峰度的含义和测度方法 利用 Excel 计算描述统计量 3-* * 三、众数与中位数 (一)众数(Mode) 众数是一组数据中出现频数最多、频率最高的变量值,常用 M0 表示。 如表3-2中年龄的众数值MO=25。 众数代表的是最常见、最普遍的状况,是对现象集中趋势的度量。 可用来测度定性变量的集中趋势; 销售量最大的产品颜色是“白色”,则有M0=“白色” 可以度量定量变量的集中趋势。 从分布曲线的角度看,众数就是变量分布曲线的最高峰所对应的变量值。 3-* x MO f(x) 组距数列中众数的确定 先找到众数组。 在等距数列中,众数组就是次数最多的组; 在异距数列中,众数组应是频数密度最大的组。 根据众数组与其相邻两组的次数差来推算。 其近似公式为: 3-* 下限公式: 上限公式: Mo (二)中位数(Median) 中位数是将数据由小到大排列后位置居中的数值。 3-* 由未分组数据计算中位数 若数据项数是奇数,则正好位于中间的数值就是中位数; 如5人收入为: 1200,1450,1500,1600,2000元,则收入的中位数 Me =1500。 若数据项数是偶数,则取居中两个数值的平均数为中位数. 如6人收入为: 1200,1450,1500,1600, 1800,2000元,则收入的中位数 Me =1550。 x Me f(x) 50% 50% 由组距数据计算中位数 先确定中位数组,即中间位置(用Σf/2来计算)所在的组。 假定中位数组内次数均匀分布(次数与变量值的区间大小成比例),近似推算中位数的值。 计算公式为: 3-* 下限公式: 上限公式: 四分位数、十分位数和百分位数 四分位数是将数据由小到大排序后,位于全部数据1/4位置上的数值。 十分位数是将数据由小到大排序后,位于全部数据1/10位置上的数值。 百分位数是将数据由小到大排序后,位于全部数据1/100位置上的数值。 中位数也就是第二个四分位数、第五个十分位数、第五十个百分位数。 分位数与其它指标结合,可以更详细地反映数据的分布特征。 3-* 箱线图(boxplot) 箱线图由一组数据的最小值(xmin)、第一四分位数(Q1)、中位数(Me)、第三四分位数(Q3)、最大值(xmax)等五个数值来绘成。 利用箱线图可以观察数据分布的范围、中心位置和对称性等特征,还可以进行多组数据分布的比较。 3-* xmin Q1 Me Q3 xmax (三)众数、中位数和算术平均数的比较 1.算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。 2.算术平均数和中位数在任何一组数据中都存在而且具有惟一性,但计算和应用众数有两个前提条件: (1)数据项数众多; (2)数据具有明显的集中趋势。 3.算术平均数只能用于定量(数值型)数据,中位数适用于定序数据和定量数据,众数适用于所有形式(类型、计量层次)的数据 3-* (续) 4.算术平均数要受数据中极端值的影响。而众数和中位数都不受极端值的影响。 为了排除极端值的干扰,可计算切尾均值,即去掉数据中最大和最小的若干项数值后计算的均值. 切尾均值是将均值与中位数取长补短的结果。 5. 算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。 3-* 算术平均数和众数、中位数的数量关系 在对称分布中,三者相等.即: 均值 = Me =Mo; 3-* x Me Mo x = Me = Mo Mo Me x 在左偏分布中,一般有: 均值MeMo 在右偏分布中,一般有:Mo Me 均值。 皮尔生经验公式:在轻微偏态时,三者的近似关系: 第二节 统计变量

文档评论(0)

haihang2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档