- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 集中趋势的统计描述
1.均数(mean,average):是算术均数(arithmetic mean)的简称。常用表示样本均数,表示总体均数。均数用于反映一组同质观察值的平均水平,适用于正态或近似正态分布的数值变量资料。其计算方法有:
(1)直接法:用于样本含量较少时,其公式为:
式中,希腊字母Σ(读作sigma)表示求和;X1,X2,…,Xn为各观察值;n为样本含量,即观察值的个数。
(2)加权法(weighting method):用于频数表资料或样本中相同观察值较多时,其公式为:(2.2)
式中,X1,X2,…,Xk与f1,f2,…,fk分别为频数表资料中各组段的组中值和相应组段的频数(或相同观察值与其对应的频数)。
2.几何均数(geometric mean)用G表示,适用于①对数正态分布,即数据经过对数变换后呈正态分布的资料;②等比级数资料,即观察值之间呈倍数或近似倍数变化的资料。如医学实践中的抗体滴度、平均效价等。其计算方法有
(1)直接法: 或
(2)加权法:注意:计算几何均数时观察值中不能有0,因0不能取对数;一组观察值中不能同时有正或负值。
3.中位数(median)用表示。中位数是一组由小到大按顺序排列的观察值中位次居中的数值。中位数可用于描述①非正态分布资料(对数正态分布除外);②频数分布的一端或两端无确切数据的资料③总体分布不清楚的资料。在全部观察中,小于和大于中位数的观察值个数相等。
(1) 直接法:将观察值由小到大排列,按式(2.6)或式(2.7)计算。
为奇数 , (1.5)为偶数,(1.6)
式中下标、、为有序数列的位次。、、为相应位次的观察值。
(2)频数表法:用于频数表资料。计算步骤是:①计算的大小,并按所分组段由小到大计算累计频数和累计频率,如表2.1第(3)、(4)栏;②确定所在组段。累计频数中大于的最小数值所在的组段即为所在的组段;或累计频率中大于50%的最小频率所在的组段即为所在的组段。③按式(2.7)求中位数。式中:L、i、分别为所在组段的下限、组距和频数;为小于L的各组段的累计频数。
4.百分位数(percentile)用Px表示。一个百分位数Px将一组观察值分为两部分,理论上有X%的观察值比它小,有(100-X)%的观察值比它大,是一种位置指标。中位数是一个特定的百分位数,即M=P50。百分位数的计算步骤与中位数类似,首先要确定Px所在的组段。先计算,累计频数中大于的最小值所在的组段就是Px所在组段。计算见公式(2.8)。
式中:L、i、fx分别为Px所在组段的下限、组距和频数;为小于L的各组段的累计频数。
百分位数用于描述一组数据某一百分位位置的水平,多个百分位数的结合应用时,可描述一组观察值的分布特征;百分位数可用于确定非正态分布资料的医学参考值范围。应用百分位数,样本含量要足够大,否则不宜取靠近两端的百分位数。
1.极差 最大值与最小值之差称极差(或全距),符号为R,是变异指标中最简单的一种。如上例甲计数的极差为520-480=40,乙的为560-440=120。可见乙的计数较甲的波动大。一般把最小值与最大值写在括号里,附在极差的后面。如上例写成40(480~520)与120(440~560)。其单位与变量值的相同。
当调查例数增多时,遇到较大或较小极端值的机会就加大,因此最大值与极差随着例数的增多而加大,但最小值却随着例数的增多而变小。
极差计算简便,但只考虑了最小、最大值,因此易受个别极端值的影响,且随例数的多少而变动,不稳定。仅用于粗略地说明变量值的变动范围。但在正态分布中可用以估计标准值范围,详见有关文献。
2.四分位数间距 极差的不稳定主要是受两极端数值的影响,于是有人将两端数据按比例去掉一定例数,这样所得数据就比较稳定了。例如两端各去掉25%,取中间50%数据的数值范围,那么只要计算P25与P75,求P75与P25之差即得四分位数间距,符号为Q。
Q=P75-P25 (4.12)3.均差 四分位数间距虽比极差稳定,但仍只是两点之间的距离,没有利用每个变量值的信息。于是有人计算每个变量值与均数(或中位数)差的绝对值之和,然后平均称为均差(或平均直线差)作为变异指标之一。
?(4.13)
例4.8 试计算4.3中,心重的均差。 由例4.3知X=293.75g,代入式(4.13)得
4.方差 式式(4.13)中用变量值与均数之差的绝对值之和∑∣X-X∣,而不用离均差之和∑(X-X)是因为∑(X-X)=0,不能说明变异情况,故取绝对值以去掉负号。亦有人用平方的办法,即用离均差平方和∑(X-x )2,既去掉了负号,又提高了指标的灵敏性。因为数值愈大,平方后增大的愈多,所以离均差稍有变化,就能从指标上反映出来。
正态分布及其性质
原创力文档


文档评论(0)