由数据,分析位置特性-分散性-关联性-.docVIP

由数据,分析位置特性-分散性-关联性-.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
由数据,分析位置特性-分散性-关联性-.doc

由数据,分析位置特性-分散性-关联性-等 §1.1一维数据的数字特征 来自总体一维数据称为样本观测值 (样本容量为) 主论: 集中位置、分散程度、分布形状 1. 位置的数字特征 (1)均值(Mean),简易,但不稳健(难抗异值) 次序统计量值: (由排序而得), 其中 , (2) 中位数(Median) 较稳健, 抗异值; (若数据对称, 则两边个数约等) (3) 其中, 当时, 规定: . 常用上、下四分位数: , . (4) 三均值 (较准、较稳) (5) 连续型总体分布的分位数 () 当惟一时, 在一定条件下, 有 样本分位数总体的分位数 故当充分大时, 有 (相合估计) 例1.1 100个女生的血清蛋白含量(g/L)数据如下: 求均值,中位数,上,下四分位数,, , ,,分位数, 三均值. 解: 用过程proc univariate来实现, 结果为 Quantile Estimate 100% Max 84.30 99% 82.95 95% 80.50 90% 79.15 75% Q3 75.80 50% Median 73.50 25% Q1 71.20 10% 68.40 5% 67.30 1% 64.65 0% Min 64.30 proc iml;/*iml1.sas*/ m=0.25*75.80+0.5*73.50+0.25*71.20; print m; 2. 分散性的数字特征 (1) 样本的方差 标准差 变异系数 ; ;( Variance, Std Deviation) 变异系数(Coefficient Variation):. (无量纲) 若来自总体, 则分别是总体的 的相合估计,即 当充分大时, 有 (2) 极差(Range) 四分位极差(Interquartile Range) ; (抗扰,稳健) 对于正态总体, 有总体的 , 故总体的四分位极差 这时 若总体标准差存在, 则得的(抗扰)估计 (称为四分位标准差) (3) 异常值简易判别法 数据的上、下截点: , , 界外视为特小、大值, 统称异常值 若总体为, 理论上的上、下截点为 , 界外概率为0.006 98, 即异常值比例约为0.7%. 例1.2 计算例1.1血清蛋白含量数的方差、标准差、变异系数、极差、四分位极差、四分位标准差、并分析是否有异常值. 解 调用类似的过程example1_2.sas, 可得 , 下、上截点:64.3和82.7, 剔除84.3, 再计算得 结果表明: 中位,四分位抗扰, 均值和标准差都有变化(敏感) 3. 形状的数字特征 (1) 偏度(数据的) (Skewness) 左偏态(负偏) 对称 右偏态(正偏) (2) 峰度(数据的) (Kurtosis) 以正态分布为标准, 比较两侧端数据分布情况. (数据分布边缘-正态(密度)分布边缘) 若数据呈现正态, 则; 若, 则含有较多远离均值的极端数据; 若, 则含有较少的极端数据. (3) 总体的偏度、峰度 设是取自总体的样本, 3、4阶中心矩 , 则总体的偏度和峰度分别为 和 , 数据的和是总体的和的相合估计, 故 当相当大时, 有 和 若总体是对称分布, 则,故有,余见图. 总体峰度是以同方差的正态分布为准, 比较尾部分. 若总体分布为正态, 则有, 故有; 当, 称~为粗尾的, 当, 称~为细尾的 (4) 多维数据简介 对每一分量, 分别计算其数字特征. 例1.3 从1952年至2001年,我国国民生产总值、第一产业(农业)、第二产业(工业与建筑业)、第三产业的产值见表1.1(单位:亿元).分别计算国民生产总值、第一、二、三产业产值的主要数字特征并考察异常值情况. 表 解: 调用example13.sas, 可得 (1) 国民生产总值: , , . (2) 第一产业 , , . (3) 第二产业 (4) 第三产业 特征: (1) 与差距大, 有较散的数据; (2) 且较大, 有较多偏右态的数据 (3) 且较大, 分布呈现粗尾, 有较多的大值 表明: 我国国民生产总值及各类产业总值在迅速增长, 尤其是改革开放二十余年来, 增长更快. 用计算上截断点, 分别得 国民生产总值的上截点: 40 087.5 第一产业产值的上截点: 9 731.5 第二产业产值的上截点: 17 291.7 第三产业产值的上截点: 12 823.55 由表1.1可知1994年及以后的数据是特大值. 说明:自1994年后,国民经济生产总值及各产业产值增加更大. 第1章 数据描述性分析 第 15 页 共 19 页

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档