- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
华中科技大学第二章_定量资料的统计描述
第二章 定量资料的统计描述 王增珍 电话wzzh@mails.tjmu.edu.cn QQ:861649417 第一节 频数分布表与频数分布图 一、离散型定量变量的频数分布 例2-1 1998年某山区96名孕妇产前检查次数资料如下: 0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…,4,7 清点各观察值的频数 二、连续型定量变量的频数分布 频数分布表的编制步骤 (1)计算极差(range,R),也称为全距 R = 最大值-最小值 = 29.64-7.42=22.22(μmol/L) (2)确定组段数与组距 (3)确定各组段的上下限 第一组段应包含最小值,最后一个组段应包含最大值. (4) 列表 三、 频数分布表(图)的用途 (一)揭示资料的分布类型 (二)描述分布的集中趋势和离散趋势 集中趋势(central tendency) 同一地区、同一年度、同一民族、同一年龄段、相同的性别与类似的健康状况,这些共同点(同质性)使得该人群的变量值趋向同一数值, (如:血清铁含量)如组段“18~”的频数最多,为集中趋势。 离散趋势(tendency of dispersion) 同一总体中的个体之间又普遍存在着各种差别。遗传、营养、行为、心理等各种因素在个体之间都不会完全相同,而是或近或远的离散在集中位置的周围,此为离散趋势。 (三)便于发现某些特大和特小的可疑值 (四)便于进一步计算指标和统计分析 第二节 描述集中趋势的统计指标 连续型定量变量采用: 平均数(average)是应用最广泛、最重要的一个指标体系,它常用于描述一组同质观察值的集中趋势,反映一组观察值的平均水平。 常用的平均数 算术均数、几何均数和中位数。 一、算术均数 二、几何均数 几何均数(geometric mean,G) 适用于原始观察值分布不对称,但经对数转换后呈对称分布的资料,如对数正态分布资料。 医学中常见的抗体滴度资料,观察值间常呈倍数关系,变化范围跨越多个数量级。 三、中位数 中位数(median,M) 是指将原始观察值从小到大或从大到小排序后,位次居中的那个数。 理论上有一半的观察值低于中位数,一半的观察值高于中位数。 中位数适用于各种分布的资料,特别是偏峰分布资料不适合用均数描述其集中位置时,可用中位数反映位次居中的观察值水平。 由于中位数不是利用全部观察值计算出来的,它只与位次居中的观察值大小有关,因此它不受分布两端特大或特小值的影响。 对分布末端无确定值的资料,不能直接计算均数和几何均数时,也可以计算中位数。 4. 众数(mode) 原指总体中出现机会最高的数值。样本众数则是在样本中出现次数最多的数值。 例2-9 例2-1产前检查次数的众数为4(次)。 第三节 描述离散趋势的统计指标 例2-10 试观察三组数据的离散状况。A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。将三组数据分别点在直线上。 描述离散趋势的统计量: 极差、四分位数间距、方差、标准差和变异系数 1. 极差(range,R) R = 最大值-最小值 极差的计算简便,仅仅利用了样本中最大值与最小值的信息,不能反映其他观察值的变异情况。 一般样本量n越大,越有机会观察到偏大或偏小的数据,R可能会越大,因此样本含量相差悬殊时不宜比较极差。 即使样本量相同,R也往往不够稳定。 2. 四分位数间距(quartile range,Q) Q= P75-P25 Q越大意味着数据间变异越大。 四分位数间距可用于各种分布的资料,特别对偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。 和极差相比,四分位数间距更稳定,但是仍然未考虑资料中每个观察值的离散程度。 3.方差(variance)
文档评论(0)