数据描述性分析.pptVIP

  • 4
  • 0
  • 约6.36千字
  • 约 71页
  • 2023-07-01 发布于广东
  • 举报
上、下四分位之差称为 四分位极差(或半级差)。 有一种简便判断数据为异常值的方法,以 为数据的上下截断点。 第三十页,共七十一页,2022年,8月28日 例 从19个杆塔上的普通盘形绝缘子测得该层电导率()的数据如下: 9.89 8.00 6.40 6.17 5.39 7.27 9.08 10.40 11.20 8.75 6.45 11.90 10.30 9.58 9.24 7.75 6.20 8.95 8.33 计算中位数、诸分位数、极差、四分位数、三均值,并分析是否有异常值。 第三十一页,共七十一页,2022年,8月28日 上、下截断点分别为1.29和15.05,故数据无异常值。 第三十二页,共七十一页,2022年,8月28日 内容分布 均值、方差的数据特征 数据的分布 二元数据的数字特征及相关系数 误差 坏值的剔除 第三十三页,共七十一页,2022年,8月28日 数据的分布 数据的数字特征刻画了数据的主要特征,而要对数据的总体情况作全面的描述,就要研究数据的分布。 对数据分布的主要描述方法是直方图与茎叶图、数据的理论分布即总体分布。数据分析的一个重要问题是要研究数据是否来自正态总体,这是分布的正态性经验的问题。 第三十四页,共七十一页,2022年,8月28日 直方图、QQ图 对于数据分布,常用直方图进行描述。将数据取值的范围分成若干区间(一般是等间隔的),在等间隔区间的情况,每个区间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或频率/组距,在高度是频率/组距的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度。 组距对直方图的形态有很大的影响,组距太小,每组的频数较少,由于随机性的影响,邻近区间上的频数可能很大;组距太大,直方图所反映概率密度的形态就不灵敏。 第三十五页,共七十一页,2022年,8月28日 第三十六页,共七十一页,2022年,8月28日 QQ图可以帮助界别样本分布是否近似于某种类型的分布。 第三十七页,共七十一页,2022年,8月28日 第三十八页,共七十一页,2022年,8月28日 茎叶图、箱线图 与直方图相比较,茎叶图更能细致地看出数据分布的结构。 例 某班有31个学生,某门课程的考试成绩如下: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 做出其茎叶图。 第三十九页,共七十一页,2022年,8月28日 第四十页,共七十一页,2022年,8月28日 茎叶图的特点 茎叶图与直方图一样,可以直观地看出数据的分布状况。从茎叶图分析,可大致直观地看出这批数据是否接近对称,分散性如何,是否有异常值,数据中是否有间隙等等。 利用茎叶图,很自然地可以对所有数据排序。从茎叶图可以看出由原始数据得到的次序统计量。 对于排过序的一批数据,从小到大的每个数据的排序名次,称为升秩;而从大到小的每个数据的排序名次,称为降秩。每个数据的升秩与降秩的较小者,称为该数据的深度,即 深度=min(升秩,降秩) 第四十一页,共七十一页,2022年,8月28日 例 铅压铸件硬度数据如下: 53.0 70.2 84.3 55.3 78.5 63.5 71.4 53.4 82.5 67.3 69.5 73.0 55.7 85.8 95.4 51.1 74.4 54.1 77.8 52.4 69.1 53.5 64.3 82.7 55.7 70.5 87.5 50.7 72.3 59.5 做出数据的茎叶图。 第四十二页,共七十一页,2022年,8月28日 箱线图 茎叶图是探索性数据分析所采用的重要方法。而箱线图也能直观简洁地展现数据分布的主要特征。 第四十三页,共七十一页,2022年,8月28日 内容分布 均值、方差的数据特征 数据的分布 二元数据的数字特征及相关系数 误差 坏值的剔除 第四十四页,共七十一页,2022年,8月28日 多元数据的数字特征与相关分析 以上我们分析的都是一元数据,但在实际中,人们更多的遇到的是多元数据 对于多元数据,除分析各变量的取值特点外,更要分析各个变量之间的相关关系 第四十五页,共七十一页,2022年,8月2

文档评论(0)

1亿VIP精品文档

相关文档