- 4
- 0
- 约2.82千字
- 约 22页
- 2018-12-31 发布于福建
- 举报
2-定量资料日的统计描述2
医学统计学 Medical Statistics 三种平均数的特点 1、算术平均数 根据全体观察值计算得到,计算较为简单。但对于极端值或偏态分布资料显得不稳定。 2、几何均数 也根据全部观察值计算得到,只适宜于等比资料。 3、中位数 将全部观察值由小到大顺序排列后,取中间位置所对应的量值。不受极端值的影响,但不如均数精确。 二、离散趋势的描述 例、三组同性别、同年龄儿童的体重(kg)数据如下,试分析其集中趋势和离散程度。 甲组 乙组 丙组 仅用集中趋势不能全面描述数据分布的规律。还需要用一些统计指标来反映其变异程度的大小。 描述离散程度的常见指标有:全距、四分位数间距、方差、标准差及变异系数,其中以标准差和变异系数最为常用。 (一)全距(range) 全距也称作极差,用大写字母R表示; 为一组变量值中最大值与最小值之差; 反映资料分布的范围; 全距越大,说明数据的变异程度越大;全距越小,说明数据的变异程度越小。 例、三组同性别、同年龄儿童的体重(kg)数据如下,试分析其集中趋势和离散程度。 分别求出三组的极差 : 甲组:R=34-26= 8(Kg) 乙组:R=36-24= 12(Kg) 丙组:R=34-26= 8(Kg) 优点:方法简单 缺点: ① 不灵敏:反映最大值与最小值之间的差异,当组内其它数据变动时,全距不变。 ② 不稳定:当样本例数增加时,获得过大或过小极端变量值的可能性增大,因而全距可能会变大。 全距对变异度的描述很粗略,用来初步反映变异的大小。 (二)四分位数间距 百分位数(percentile)指将观察值从小到大排列后,处于第x百分位置上的数,用符号Px表示。 一个百分位数可将一组变量值分为两部分,理论上有x%的变量值比它小,有(100-x)%的变量值比它大。 四分位数(quartile)是两个特定的百分位数:第25%分位数P25,和第75%分位数P75,分别记为QL和QU。 四分位数间距(interquartile range)定义为:QL与QU间的差距,其间包括了全部观察值从小到大排列中间的一半,而不包括两端。 与全距相比,四分位数间距受极端值的影响小,比全距稳定。 四分位数间距越大,说明变异度越大。 适用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。 常与中位数一起使用 (三)方差(variance)和 标准差(standard deviation) 1、总体方差和标准差 应全面考虑每个观察值的变异情况。 (X-?)→ ∑(X-?)=0 →∑(X-?)2 → → ∑(X-?)2,离均差平方和(sum of squares about the mean,简记为SS) 总体标准差(standard deviation,简记为SD) 标准差和方差均反映个体变异,个体变异度越大,标准差和方差也越大,反之亦然。 2、样本方差和标准差 实际工作中得到的是样本资料,总体均数往往是未知的,只能用样本均数作为 ? 的估计值,因此用 代替(X-? )2、用样本例数n代替N。 1908年英国统计学家Gosset提出,用n-1代替n作为校正。 自由度(df) 其中,n-1称为自由度。自由度为允许自由取值的个数。 一般情况下,自由度=变量数-限制条件数。 例、三组同性别、同年龄儿童的体重(kg)数据如下,试分析其集中趋势和离散程度。 求甲、乙、丙三组数据的标准差。 甲组:n =5, s =3.16(kg) 乙组:n =5, s =4.74(kg) 丙组:n =5, s =2.92(kg) 标准差直接地、总结地、平均地描述了变量值的离散程度。 在同质的前提下,标准差越大表示变量值的离散程度越大,即变量值的分布分散、不整齐、波动较大; 反之,标准差越小表示变量值的离散程度越小,即变量值的分布集中、整齐、波动较小。 (四)变异系数(coefficient of variation) 变异系数,简记为CV,是标准差s与均数之比 。 变异系数派生于标准差,它的应用价值在于排除了平均水平的影响,并且消除了单位。 常用于:① 比较度量衡单位不同的两组或多组资料的变异度。② 比较均数相差悬殊的两组或多组资料的变异度。 例 某地20岁男子100人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.7kg,标准差为4.96kg,试比较身高和体重的变异何者为大。 由于度量单位不同,故不能直接比较两者的标准差,而应比较变异系数:
原创力文档

文档评论(0)