- 8
- 0
- 约1.95千字
- 约 20页
- 2017-11-16 发布于江苏
- 举报
由数据,分析报告位置特性分散性关联性
由数据,分析位置特性-分散性-关联性-等
§1.1一维数据的数字特征
来自总体一维数据称为样本观测值
(样本容量为)
主论: 集中位置、分散程度、分布形状
1. 位置的数字特征
(1)均值(Mean),简易,但不稳健(难抗异值)
次序统计量值:
(由排序而得), 其中
,
(2) 中位数(Median)
较稳健, 抗异值; (若数据对称, 则两边个数约等)
(3)
其中, 当时, 规定: .
常用上、下四分位数: , .
(4) 三均值 (较准、较稳)
(5) 连续型总体分布的分位数
()
当惟一时, 在一定条件下, 有
样本分位数总体的分位数
故当充分大时, 有 (相合估计)
例1.1 100个女生的血清蛋白含量(g/L)数据如下:
求均值,中位数,上,下四分位数,, ,
,,分位数, 三均值.
解: 用过程proc univariate来实现, 结果为
Quantile Estimate 100% Max 84.30 99% 82.95 95% 80.50 90% 79.15 75% Q3 75.80 50% Median 73.50 25% Q1 71.20 10% 68.40 5% 67.30 1% 64.65 0% Min 64.30
proc iml;/*iml1.sas*/
m=0.25*75.80+0.5*73.50+0.25*71.20;
print m;
2. 分散性的数字特征
(1) 样本的方差 标准差 变异系数
;
;( Variance, Std Deviation)
变异系数(Coefficient Variation):. (无量纲)
若来自总体, 则分别是总体的
的相合估计,即
当充分大时, 有
(2) 极差(Range) 四分位极差(Interquartile Range)
; (抗扰,稳健)
对于正态总体, 有总体的
,
故总体的四分位极差
这时
若总体标准差存在, 则得的(抗扰)估计
(称为四分位标准差)
(3) 异常值简易判别法
数据的上、下截点: , ,
界外视为特小、大值, 统称异常值
若总体为, 理论上的上、下截点为
,
界外概率为0.006 98, 即异常值比例约为0.7%.
例1.2 计算例1.1血清蛋白含量数的方差、标准差、变异系数、极差、四分位极差、四分位标准差、并分析是否有异常值.
解 调用类似的过程example1_2.sas, 可得
,
下、上截点:64.3和82.7, 剔除84.3, 再计算得
结果表明:
中位,四分位抗扰, 均值和标准差都有变化(敏感)
3. 形状的数字特征
(1) 偏度(数据的) (Skewness)
左偏态(负偏) 对称 右偏态(正偏)
(2) 峰度(数据的) (Kurtosis)
以正态分布为标准, 比较两侧端数据分布情况.
(数据分布边缘-正态(密度)分布边缘)
若数据呈现正态, 则;
若, 则含有较多远离均值的极端数据;
若, 则含有较少的极端数据.
(3) 总体的偏度、峰度
设是取自总体的样本, 3、4阶中心矩
,
则总体的偏度和峰度分别为
和 ,
数据的和是总体的和的相合估计, 故
当相当大时, 有
和
若总体是对称分布, 则,故有,余见图.
总体峰度是以同方差的正态分布为准, 比较尾部分.
若总体分布为正态, 则有, 故有;
当, 称~为粗尾的, 当, 称~为细尾的
(4) 多维数据简介
对每一分量, 分别计算其数字特征.
例1.3 从1952年至2001年,我国国民生产总值、第一产业(农业)、第二产业(工业与建筑业)、第三产业的产值见表1.1(单位:亿元).分别计算国民生产总值、第一、二、三产业产值的主要数字特征并考察异常值情况. 表
解: 调用example13.sas, 可得
(1) 国民生产总值:
,
,
.
(2) 第一产业
,
,
.
(3) 第二产业 (4) 第三产业
特征:
(1) 与差距大, 有较散的数据;
(2) 且较大, 有较多偏右态的数据
(3) 且较大, 分布呈现粗尾, 有较多的大值
表明: 我国国民生产总值及各类产业总值在迅速增长, 尤其是改革开放二十余年来, 增长更快.
用计算上截断点, 分别得
国民生产总值的上截点: 40 087.5
第一产业产值的上截点: 9 731.5
第二产业产值的上截点: 17 291.7
第三产业产值的上截点: 12 823.55
由表1.1可知1994年及以后的数据是特大值.
说明:自1994年后,国民经济生产总值及各产业产值增加更大.
第1章 数据描述性分析
第 15 页 共 19 页
您可能关注的文档
最近下载
- (T8联考)2025届高三部分重点中学12月第一次联考 英语试卷(含答案解析).docx
- 增材制造医疗器械.docx VIP
- 八年级下册语文第二单元知识总结.docx VIP
- 2024年安徽省公务员行测及答案详解【最新】.docx VIP
- 《林海雪原》章节精读读书笔记.pdf VIP
- 2024级“工商管理学”学术学位硕士研究生培养方案(120200).pdf VIP
- (2025春新版本)一年级下册道德与法治全册教案.pdf
- XX人民医院采购功能性电刺激(低频电子脉冲刺激仪)技术参数(2026年).docx VIP
- T/CARM 002-2023 康复医院建设标准.pdf VIP
- 《Java语言程序设计案例教程》课件第4章.ppt VIP
原创力文档

文档评论(0)