_数据描述性分析解读.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
若 是取自总体分布 的样本,设 ,称满足 的 为总体分布 的 分位数。考虑总体 分位数 为唯一的情况,在一定条件下,样本的 茎叶图、箱线图及五数总括 与直方图相比较,茎叶图更能细致地看出数据分布的结构。 例 1.11 某班有31个学生,某门课程的考试成绩如下: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 做出其茎叶图。 茎叶图的特点 茎叶图与直方图一样,可以直观地看出数据的分布状况。从茎叶图分析,可大致直观地看出这批数据是否接近对称,分散性如何,是否有异常值,数据中是否有间隙等等。 利用茎叶图,很自然地可以对所有数据排序。从茎叶图可以看出由原始数据得到的次序统计量。 对于排过序的一批数据,从小到大的每个数据的排序名次,称为升秩;而从大到小的每个数据的排序名次,称为降秩。每个数据的升秩与降秩的较小者,称为该数据的深度,即 深度=min(升秩,降秩) 例1.12 铅压铸件硬度数据如下: 53.0 70.2 84.3 55.3 78.5 63.5 71.4 53.4 82.5 67.3 69.5 73.0 55.7 85.8 95.4 51.1 74.4 54.1 77.8 52.4 69.1 53.5 64.3 82.7 55.7 70.5 87.5 50.7 72.3 59.5 做出数据的茎叶图。 箱线图 茎叶图是探索性数据分析所采用的重要方法。而箱线图也能直观简洁地展现数据分布的主要特征。 例1.15 某班有31个学生,某门课程的考试成绩如下: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 做出以上数据的箱线图。 中位数、分位数、三均值与极差 均值、方差、标准差等数字特征是总体相应特征值的一种矩估计,更适合于来自正态分布的数据的分析。若总体的分布未知,或者数据严重偏态,有若干异常值(极端值),上述分析数据的方法不甚合适,而应计算中位数、分位数、三均值、极差等数据数字特征,计算上述特征需要用到次序统计量。 次序统计量 中位数与极差 中位数的计算公式是 中位数是描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据个数的一半。 中位数与极差 对于对称分布的数据,均值与中位数较接近;对于偏态分布的数据,均值与中位数不同。 中位数的另一个显著特点是不受异常值(特大或特小)的影响,具有稳健性,因此它是数据分析中相当重要的统计量。 极差的计算公式是 它是描述数据分散性的数字特征。数据越分散,极差越大。 例1.5 考虑下列样本: 5 3 11 3 1 7 8 写出次序计量,并求中位数、极差。 分位数 对 和容量为 的样本 它的 分位数是 分位数又称为第100 百分数。大体上整个样本的 100 %的观测值不超过 分位数.0.5分位数 (第50百分位数)就是中位数M.在实际应用中,0.75分位数与0.25分位数(第75百分位与第25百分位数)比较重要,它们分别称为上、下四分位数,并简记为 下列分位数也在实际应用中经常用到: , , , , , 。 例1.6 考虑下列样本: 5 3 11 3 1 7 8 计算上面数据的 , ,及 , , , , , 。 以此类推,我们可以得到其他的结果: 均值 与中位数M皆是描述数据集中位置的数字特征。计算 时,用了样本 的全部信息,而M仅用了数据分布中的部分信息。因此,在正常情况下,用 比用M描述数据的集中位置为优。然而,当存在异常值时, 缺乏稳健性,而M具有很强的稳健性。考虑到要充分

文档评论(0)

文档资料 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档