数据描性分析.ppt

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第1章数据的描述性分析 1.1数据的数字特征 数据分析研究的对象是数据,一元数据是n个观测值 x1,x2,…,x 要研究数据的数字特征,分析数据的集中位置、分散程 度、数据的分布是正态还是偏态。对于多元数据,要分析数据 各个分量的相关性等等 1.1.1均值、方差等数字特征 1.均值 2.方差 标准差s=s 变异系数cv=03(%) 3.k阶原点矩 k阶中心矩a4=1之(x-x 偏度 25(t (n-1)(n-2)S 偏度是刻画数据对称性的指标,右侧更分散的数据偏度为正,左侧更分 散的数据偏度为负,关于均值对称的数据偏度为0. 峰度 7(1+1) g (n-1)(n-2)(n-3)S+a (-2)(-3 n(n+1)4 (n-1)n-2)n-3)S(n-2)(n-3) 当总体分布为正态时,峰度近似为0:当分布较正态分布的尾部更分 散,峰度为正,否则峰度为负 当数据是某些总体随机取出的样本时,数据数字特征即是样本的 数字特征.与样本数字特征对应的是总体的数字特征样本数字特征是 相应的总体数字特征的矩估计 例1.2某单位对100名女学生测定血清总蛋白含量(g/L),数据如 下 74.378.868878.070.480.580.569.771.273.5 79.575.675078.872.072.072.074.371.272.0 75.073.578.874375865.074.371.269.768.0 73.575.072.064.375.880.369.774.373.573.5 876.570.471.281.275.070.468.0 70.472.076.574.376.577667.372.075074.3 73.579.573.574.765076.58 75472.772.7 67.276.572.770477.268.867.567.567.372.7 75.873.575.073.573.573.572781.670.374 73.579.570476572.777284.375.076.570.4 计算均值、方差、标准差、变异系数、偏度、峰度 解用SAS系统PR0 C UNIVARRIATE过程计算,得 x=73660S2=15.524=3.940 CV=5.349 =0.061g2=0034 偏度、峰度的绝对值皆较小,可以认为数据是来自正态总体的样 本 1.1.2中位数、分位数、三均值与极差 这些数字特征适合总体分布未知或有偏态的数据设x1,x2 ,x是n个观测值,将它们按由小到大排为:xu,x2),…x 称为次序统计量最小次序统计量xu与最大次序统计量xn)分别 为 xo=minxi =max 中位数与极差 中位数 n为奇数 )n为偶数 2 中位数位于数据中心位置,中位数具有稳健性,受异常值影响较小. 极差 R=X(n-xa 2分位数对0≤p<1,P分位数 为分位数 M 1(xmy+xm1)mp为整数 其中是p的整数部分,当p=1定义M1=xm P分位数又称第100P百分数大体上有100P%的观测值不超过 M0s即中位数 上四分位数 O=M 下四分位数g 0.25 下列分位数经常用到:Mo,M09,M0s,M0o,M010,Mo0s,Mon 四分位极差R1=Q3-Q1 R 四分位标准差G 1.349 总体标准差σ的稳健估计 三均值 M=:Q+ 03 描述数据集中位置的稳健估计 下截断点 2-1.5R 小于下截断点的数据为特小值 上截断点 Q3-1.5R1 大于上截断点的数据为特大值 特小值、特大值合称异常值. 用 PROC UNIVARIATE过程计算分位数、四分位极差;用 PROC IML过程计算三均值、四分位标准差,下、上截断点 例1.8(续例12) 用 PROC UNIVARIATE过程, PROC IML过程计算得到 M=73.5,Q3=75.8.Q=71.2,M0y=8295 M090=79.15,Moo=68.4M05=6 65,R=20,R1=46,=341, =73.4 下、上截断点分别为64.3和82.7,故数据84.3是异常值(特大值). 将异常值84.3剔除,在进行计算分析,得 x=73.55 S=3.810 M=73.5, O3 =758 Q1=71.2,R1=46 可见,x、M更为接近,M、Q、Q与R与原数值相等,说明有稳健 性,而S原数据的值为3.940,现为3.810说明S对异常值无稳健性 1.2数据的分布 对薮据的

您可能关注的文档

文档评论(0)

kefuxing + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档