1.1 数据的数字特征.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1.1 数据的数字特征

* 中位数、分位数、三均值与极差 均值、方差、标准差等数字特征是总体相应特征值的一种矩估计,更适合于来自正态分布的数据的分析。若总体的分布未知,或者数据严重偏态,有若干异常值(极端值),上述分析数据的方法不甚合适,而应计算中位数、分位数、三均值、极差等数据数字特征,计算上述特征需要用到次序统计量。 * 次序统计量 设 是 个观测值,它可以理解为来自某 些总体的样本,将它们按数值由小到大记为: 这就是次序统计量。显然,最小次序量 与最大次 序量 分别为: * 中位数与极差 中位数的计算公式是 中位数是描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据个数的一半。 * 对于对称分布的数据,均值与中位数较接近;对于偏态分布的数据,均值与中位数不同。 中位数的另一个显著特点是不受异常值(特大或特小)的影响,具有稳健性,因此它是数据分析中相当重要的统计量。 极差的计算公式是 它是描述数据分散性的数字特征。数据越分散,极差越大。 中位数与极差 * 例4 考虑下列样本: 5 3 11 3 1 7 8 写出次序计量,并求中位数、极差。 * 分位数 对 和容量为 的样本 ,它的 分位数是: 其中, 表示 的整数部分。 当 时,定义 * p分位数又称为第100p百分数,大体上整个样本的100 p%的观测值不超过p 分位数.0.5分位数 (第50百分位数)就是中位数M.在实际应用中,0.75分位数与0.25分位数(第75百分位与第25百分位数)比较重要,它们分别称为上、下四分位数,并简记为 下列分位数也在实际应用中经常用到: , , , , , 。 分位数 * 例5 考虑下列样本: 5 3 11 3 1 7 8 计算上面数据的 , ,及 , , , , , 。 * 以此类推,我们可以得到其他的结果: * 三均值与极差 若 是取自总体分布 的样本,设 ,满足 则 称为分布 的 分位,或称总体 分位数。 本的 分位数 的相合估计。因此,当 充分大时, 有 分位数 为唯一的情况,在一定条件下,样 考虑总体 * 三均值与极差 上、下四分位数之差称为四分位极差(或半极差): 它也是样本分散性的重要数字特征,特别对于具有异常 值的数据,它作为分散性的度量具有稳健性,因此它在 稳健性数据分析中具有重要作用。 * 三均值与极差 当样本 是来自正态分布总体 时,其总体上、下四分位数为: 故总体四分位数极差为: 即 * 三均值与极差 当样本存在异常值时,标准差 缺乏稳健性。根 据上面的讨论,可以得到总体标准差 的一个具有稳 健性的估计: 它称为四分位标准差。对于任意观测值 可以作为数据分散性的稳健度量。 * 均值 与中位数M皆是描述数据集中位置的数字特征。计算 时,用了样本 的全部信息,而M仅用了数据分布中的部分信息。因此,在正常情况下,用 比用M描述数据的集中位置为优。然而,当存在异常值时, 缺乏稳健性,而M具有很强的稳健性。考虑到要充分利用样本信息,又要具有较强的稳健性,可以用三均值M1作为数据集中位置的数字特征.三均值的计算公式是: 即 是 的加权均值,权重分别是 * 在探索性数据分析中,有一种判断数据为异常值 的简便方法。称 为数据的下、上截断点。大于上截断点的数值为特大 值,小于上截断点的数值为特小值。两者皆为异常值. 当总体分布为正态分布 时,理论下、上 截断点分别为 * 数据落在上、下截断点之外的概率为0.00698,即对于 容量 较大的样本,其异常值的比率约为0.00698。 由模拟研究,对容量为 的正态样本,异常值的平均 比率近似为 * 例6 从19个杆塔上的普通盘形绝缘子测得该层电导率的数据如下: 9.89 8.00 6.40 6.17 5.39 7.27 9.08 10.40 11.20 8.75 6.45 11.90 10.30 9.58 9.24 7.75 6.20 8.95 8.33 计算中位数、诸分位数、极差、四分位数、三均值,并分析是否有异常值。 * data li11; input x @@; cards;

文档评论(0)

yaocen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档