- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 数值变量的描述性统计 山东大学公共卫生学院 刘云霞 主要内容 §2.1 频数分布 §2.2 集中趋势 §2.3 离散趋势 §2.4 正态分布及其应用 §2.1 频数分布 频数分布表的概念 频数分布表的编制方法 频数分布的特征 频数分布的类型 频数分布表的用途 例2.1某地2004年抽样调查 100名男大学生的身高(cm) 一、频数分布表的概念 当样本含量 n 较大时,为了解样本中观察值的分布规律和便于指标计算,可编制频数分布表,简称频数表(frequency table)。 频数:对某一随机现象进行重复观察,或测量大量个体的某项特征,其中某个或某一组变量值出现的次数。 频数表:将各变量值与其相应的频数列成表格形式即为频数表。 二、频数表的编制 编制频数表时不可能把所有的变量值及其相应频数都列出来,特别是当样本例数 n 较大时,此时需要根据变量的取值范围划分为若干个组段,再汇总各组段的频数。 具体步骤如下:以例2.1资料为例。 全距(或极差,range)是最大值与最小值之差,用 R 表示。 例2.1中,最大值为183.5cm,最小值为162.9cm, 故R =183.5-162.9=20.6(cm)。 组段数:根据样本含量的多少确定,一般设8~13个组段。 组距:各组段的起点和终点分别称为下限和上限,相邻两组段的下限之差(或每一组段的上、下限之差)称为组距。一般取等距分组,常用全距的1/10取整做组距。某组段(下限+上限)/2为组中值。 划分组段:各组段应是连续的,不能有交叉或重叠。第一组段应包括最小值;最末组段应包括最大值,并同时写出其下限与上限。 例2.1中,全距的1/10为 20.6/10 = 2.06,组距取整为2.0cm ;最小值为162.9cm,故第一组段的下限为162cm,第二组段的下限为164cm,依次类推,最末组段为182cm?184cm,包含最大值183.5cm 。 3. 列出频数表 采用计算机或划记法将原始数据汇总,得出各组段的观察例数,即频数,把各组段(或各观察值)及其相应的频数列表即为频数表 。 注意:最末组段应写出上、下限,其余组段只包含下限,不包含上限。 三、频数分布的特征 频数分布的两个重要特征: 1. 集中趋势(central tendency):身高向中央部分集中,以中等身高居多(172cm?组段),此为集中趋势。反映集中位置或平均水平。 2. 离散程度(tendency of dispersion):由中等身高到较矮或较高的频数分布逐渐减少,反映了身高的离散程度。 对于数值变量资料,应用集中趋势和离散程度二者结合起来分析其分布规律。 四、频数分布的类型 对称分布:指频数分布的集中位置在中间,左右两侧大致对称。 偏态分布:指频数分布不对称,集中位置偏向一侧:集中位置偏向数值小的一侧,称为正偏态分布; 集中位置偏向数值大的一侧,称为负偏态分布。 如有害化学物质在正常人体内的分布为正偏态分布;冠心病、大多数恶性肿瘤等慢性病患者的年龄分布为负偏态分布。 不同的分布类型应选用不同的统计分析方法。 五、频数表的用途 频数表可以揭示资料分布类型和分布特征,以便选取适当的统计方法; 便于进一步计算指标和进行统计分析; 便于发现资料中的某些特大或特小的可疑值。 当样本含量特别大时,可以频率估计概率。 作为资料的陈述形式。在文献报告中,用频数表既可直观地反映被研究事物的分布特征,又便于作进一步的分析研究。 §2.2 集中趋势 平均数是一类用于描述数值变量资料集中趋势的指标,反映一组同质观察值的平均水平或中心位置。 统计上的平均数包括均数、几何均数、中位数、众数、调和均数等。 一、均数 均数(mean)是算术均数(arithmetic mean)的简称。 定义:指所有观察值的代数和除以观察值的个数。 符号:样本均数用 表示,总体均数用 (miu)表示。 应用: 用于反映一组同质观察值的平均水平,应用 甚广。 适用于正态或近似正态分布的数值变量资料。 计算方法:直接法 加权法 直接法:用于样本含量 n 较小时,公式为: 式中,希腊字母 (sigma)表示求和; 为各观察值;n为样本含量,即观察值的个数。 例2.2 某地随机抽取10名18岁健康男大学生身高(cm)分别为168.7,178.4,170.0,170.4,172.1,167.6,172.4,170.7,177.3,169
原创力文档


文档评论(0)