由数据,分析位置特性-分散性-关联性-.docVIP

下载本文档

3
0
约1.95千字
约 19页
2017-08-21 发布于重庆
举报
版权申诉

由数据,分析位置特性-分散性-关联性-.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

由数据,分析位置特性-分散性-关联性-.doc

由数据,分析位置特性-分散性-关联性-等 §1.1一维数据的数字特征来自总体一维数据称为样本观测值 (样本容量为) 主论: 集中位置、分散程度、分布形状 1. 位置的数字特征 (1)均值(Mean),简易,但不稳健(难抗异值) 次序统计量值: (由排序而得), 其中 , (2) 中位数(Median) 较稳健, 抗异值; (若数据对称, 则两边个数约等) (3) 其中, 当时, 规定: . 常用上、下四分位数: , . (4) 三均值 (较准、较稳) (5) 连续型总体分布的分位数 () 当惟一时, 在一定条件下, 有样本分位数总体的分位数故当充分大时, 有 (相合估计) 例1.1 100个女生的血清蛋白含量(g/L)数据如下: 求均值,中位数,上,下四分位数,, , ,,分位数, 三均值. 解: 用过程proc univariate来实现, 结果为 Quantile Estimate 100% Max 84.30 99% 82.95 95% 80.50 90% 79.15 75% Q3 75.80 50% Median 73.50 25% Q1 71.20 10% 68.40 5% 67.30 1% 64.65 0% Min 64.30 proc iml;/*iml1.sas*/ m=0.25*75.80+0.5*73.50+0.25*71.20; print m; 2. 分散性的数字特征 (1) 样本的方差标准差变异系数 ; ;( Variance, Std Deviation) 变异系数(Coefficient Variation):. (无量纲) 若来自总体, 则分别是总体的的相合估计,即当充分大时, 有 (2) 极差(Range) 四分位极差(Interquartile Range) ; (抗扰,稳健) 对于正态总体, 有总体的 , 故总体的四分位极差这时若总体标准差存在, 则得的(抗扰)估计 (称为四分位标准差) (3) 异常值简易判别法数据的上、下截点: , , 界外视为特小、大值, 统称异常值若总体为, 理论上的上、下截点为 , 界外概率为0.006 98, 即异常值比例约为0.7%. 例1.2 计算例1.1血清蛋白含量数的方差、标准差、变异系数、极差、四分位极差、四分位标准差、并分析是否有异常值. 解调用类似的过程example1_2.sas, 可得 , 下、上截点:64.3和82.7, 剔除84.3, 再计算得结果表明: 中位,四分位抗扰, 均值和标准差都有变化(敏感) 3. 形状的数字特征 (1) 偏度(数据的) (Skewness) 左偏态(负偏) 对称右偏态(正偏) (2) 峰度(数据的) (Kurtosis) 以正态分布为标准, 比较两侧端数据分布情况. (数据分布边缘-正态(密度)分布边缘) 若数据呈现正态, 则; 若, 则含有较多远离均值的极端数据; 若, 则含有较少的极端数据. (3) 总体的偏度、峰度设是取自总体的样本, 3、4阶中心矩 , 则总体的偏度和峰度分别为和 , 数据的和是总体的和的相合估计, 故当相当大时, 有和若总体是对称分布, 则,故有,余见图. 总体峰度是以同方差的正态分布为准, 比较尾部分. 若总体分布为正态, 则有, 故有; 当, 称~为粗尾的, 当, 称~为细尾的 (4) 多维数据简介对每一分量, 分别计算其数字特征. 例1.3 从1952年至2001年,我国国民生产总值、第一产业(农业)、第二产业(工业与建筑业)、第三产业的产值见表1．1(单位：亿元).分别计算国民生产总值、第一、二、三产业产值的主要数字特征并考察异常值情况. 表解: 调用example13.sas, 可得 (1) 国民生产总值: , , . (2) 第一产业 , , . (3) 第二产业 (4) 第三产业特征: (1) 与差距大, 有较散的数据; (2) 且较大, 有较多偏右态的数据 (3) 且较大, 分布呈现粗尾, 有较多的大值表明: 我国国民生产总值及各类产业总值在迅速增长, 尤其是改革开放二十余年来, 增长更快. 用计算上截断点, 分别得国民生产总值的上截点: 40 087.5 第一产业产值的上截点: 9 731.5 第二产业产值的上截点: 17 291.7 第三产业产值的上截点: 12 823.55 由表1.1可知1994年及以后的数据是特大值. 说明:自1994年后，国民经济生产总值及各产业产值增加更大. 第1章数据描述性分析第 15 页共 19 页