- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
由数据,分析位置特性-分散性-关联性-.doc
由数据,分析位置特性-分散性-关联性-等
§1.1一维数据的数字特征
来自总体一维数据称为样本观测值
(样本容量为)
主论: 集中位置、分散程度、分布形状
1. 位置的数字特征
(1)均值(Mean),简易,但不稳健(难抗异值)
次序统计量值:
(由排序而得), 其中
,
(2) 中位数(Median)
较稳健, 抗异值; (若数据对称, 则两边个数约等)
(3)
其中, 当时, 规定: .
常用上、下四分位数: , .
(4) 三均值 (较准、较稳)
(5) 连续型总体分布的分位数
()
当惟一时, 在一定条件下, 有
样本分位数总体的分位数
故当充分大时, 有 (相合估计)
例1.1 100个女生的血清蛋白含量(g/L)数据如下:
求均值,中位数,上,下四分位数,, ,
,,分位数, 三均值.
解: 用过程proc univariate来实现, 结果为
Quantile Estimate 100% Max 84.30 99% 82.95 95% 80.50 90% 79.15 75% Q3 75.80 50% Median 73.50 25% Q1 71.20 10% 68.40 5% 67.30 1% 64.65 0% Min 64.30
proc iml;/*iml1.sas*/
m=0.25*75.80+0.5*73.50+0.25*71.20;
print m;
2. 分散性的数字特征
(1) 样本的方差 标准差 变异系数
;
;( Variance, Std Deviation)
变异系数(Coefficient Variation):. (无量纲)
若来自总体, 则分别是总体的
的相合估计,即
当充分大时, 有
(2) 极差(Range) 四分位极差(Interquartile Range)
; (抗扰,稳健)
对于正态总体, 有总体的
,
故总体的四分位极差
这时
若总体标准差存在, 则得的(抗扰)估计
(称为四分位标准差)
(3) 异常值简易判别法
数据的上、下截点: , ,
界外视为特小、大值, 统称异常值
若总体为, 理论上的上、下截点为
,
界外概率为0.006 98, 即异常值比例约为0.7%.
例1.2 计算例1.1血清蛋白含量数的方差、标准差、变异系数、极差、四分位极差、四分位标准差、并分析是否有异常值.
解 调用类似的过程example1_2.sas, 可得
,
下、上截点:64.3和82.7, 剔除84.3, 再计算得
结果表明:
中位,四分位抗扰, 均值和标准差都有变化(敏感)
3. 形状的数字特征
(1) 偏度(数据的) (Skewness)
左偏态(负偏) 对称 右偏态(正偏)
(2) 峰度(数据的) (Kurtosis)
以正态分布为标准, 比较两侧端数据分布情况.
(数据分布边缘-正态(密度)分布边缘)
若数据呈现正态, 则;
若, 则含有较多远离均值的极端数据;
若, 则含有较少的极端数据.
(3) 总体的偏度、峰度
设是取自总体的样本, 3、4阶中心矩
,
则总体的偏度和峰度分别为
和 ,
数据的和是总体的和的相合估计, 故
当相当大时, 有
和
若总体是对称分布, 则,故有,余见图.
总体峰度是以同方差的正态分布为准, 比较尾部分.
若总体分布为正态, 则有, 故有;
当, 称~为粗尾的, 当, 称~为细尾的
(4) 多维数据简介
对每一分量, 分别计算其数字特征.
例1.3 从1952年至2001年,我国国民生产总值、第一产业(农业)、第二产业(工业与建筑业)、第三产业的产值见表1.1(单位:亿元).分别计算国民生产总值、第一、二、三产业产值的主要数字特征并考察异常值情况. 表
解: 调用example13.sas, 可得
(1) 国民生产总值:
,
,
.
(2) 第一产业
,
,
.
(3) 第二产业 (4) 第三产业
特征:
(1) 与差距大, 有较散的数据;
(2) 且较大, 有较多偏右态的数据
(3) 且较大, 分布呈现粗尾, 有较多的大值
表明: 我国国民生产总值及各类产业总值在迅速增长, 尤其是改革开放二十余年来, 增长更快.
用计算上截断点, 分别得
国民生产总值的上截点: 40 087.5
第一产业产值的上截点: 9 731.5
第二产业产值的上截点: 17 291.7
第三产业产值的上截点: 12 823.55
由表1.1可知1994年及以后的数据是特大值.
说明:自1994年后,国民经济生产总值及各产业产值增加更大.
第1章 数据描述性分析
第 15 页 共 19 页
文档评论(0)