02-数值变量的统计描述SSH.ppt

  1. 1、本文档共120页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
例2-1 某妇产科医生观察1402名临产母亲的体重(kg)资料 频数( frequency ):指在一个抽样资料中,某变量值出现的次数。 ⒈ 求全距(Range,简记R ):是一组资料中 最大值(Xmax)与最小值(Xmin)之差,亦称极差。 2. 定组距:将全距分为若干段,称为组段。 组与组之间的距离,称为组距;用小写i 表示。 3.写组段:即将全距分为若干段的过程。 4. 列表划记:根据预定的组段和组距,用 划记的方法整理原始资料。 4. 样本含量足够大时,以频率作为概率的估计值。 (一) 算术平均数(arithmetic mean) ● 简称:均数(mean) ● 使用条件:数据分布比较均匀呈正态分布或近似正态分布。 ● 样本均数用符号:X 表示 ● 总体均数用符号:μ表示 ● 计算方法有两种:直接法(小样本)和加权法(大样本) 数据加权的意义 加权用于表示某数据值在整个数据资料中的权重 举例1:12=1*101+2 举例2:杂拌糖例子 设软糖5元/斤,硬糖8元/斤,酒心糖10/斤,问 5斤软糖 3斤硬糖, 2斤酒心糖,应卖多少钱一斤 答: (5*5+3*8+2*10)/10=6.9 总钱数/总斤数 举例3:食堂买菜例子 举例4:评委打分和观众打分 3 计算机软件法 使用统计软件 SPSS、SAS等的频数统计命令 修正均数 也称截尾平均值 (Trimmed Mean) 刪除最大及最小各2.5﹪或5﹪(或任何研究者认为合理之比率)后计算余下数据之平均值。 截尾平均值的能平衡「平均值」及「中位数」之优劣,缺点为样本数目因去除极端值后而减少。 例子:评分中,去掉一个最高分,去掉一个最低分 对下列数据求均数合适吗? 1 2 4 8 16 32 64 128 256 512 1024 算术均数 =(1+2+4+8+…)/11=186.09 (二) 几何均数(geometric mean, G) ● 概念:对一组观察值,先进行对数变换,按算术均数计算方法求其对数值的均数,该均数的反对数值即几何均数(G)。 ● 使用条件:用于原始数据分布呈偏态分布,等比资料(倍数变化)或对数正态分布资料的平均数的计算。 ● 表示符号:G ● 计算方法:直接法和加权法 当数值为负数时,可以加一个常数项再取对数 lgY=lg10(X+K) 1.有8份血清的抗体效价分别为: 1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640 求平均抗体效价。 1.有8份血清的抗体效价分别为: 1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640 求平均抗体效价。 问题:下列数据用那种指标表示集中趋势更合适些 1 99 100 101 1000000 算术均数? 200060.2 几何均数?251.86 显然都不合适 2. 国家统计局发布了2011年城镇居民人均总收入23979元,问了许多人感觉没有这么高。 目前基尼指数用来表现一个国家和地区的财富分配状况,按照联合国有关组织规定:低于0.2收入绝对平均0.2-0.3收入比较平均0.3-0.4收入相对合理0.4-0.5收入差距较大0.5以上收入差距悬殊 中国大陆基尼系数2011年超过0.55,已跨入收入差距悬殊行列,财富分配非常不均,两级分化严重。超过中国社会和国际社会的容忍度,中国基尼系数高于所有发达国家(如日本基尼系数仅为0.23) 80%的财富20%的人掌握 (三)中位数(Median,M) ● 概念:把一组变量值从小到大排列,位于中间位置的变量值叫中位数,用M表示。 ● 使用条件:当一组资料类型分布不清或明显 偏态分布时的平均数的计算。 ● 表示符号:M ● 计算方法:直接法和加权法  百分位数(Percentile,P) ● 概念:为一种位置指标,表示位于全部观察值第X%位置处的数值。一个Px将总体或样本的全部观察值分为两部分,理论上有X%的观察值比它小,(100-X)%的观察值比它大,P50分位数即是中位数。 ● 表示符号:Px ● 计算方法: 频数表计算 P50 = M 当n为偶数时: 1.某病患者9名,发病潜伏期分别为顺序 2、3、3、3、4、5、6、9、16d,求中位数。 (四)众数(mode) 众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。适用于大样本;较粗糙。 例 有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55,58,58,58,58,61,

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档