- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4、第二章 数值变量的描述性统计2PPT
;第一节 数值变量资料的频数表 ;1.求全距
R =183.5-162.9=20.6(cm)
2.定组段和组距
(1)一般设8~13个组段 ,常用全距的1/10取整做组距。
i= 20.6/10=2.06
取整,组距为2
(2)上限、下限、组距
(3)第一组段应包括全部观察值中的最小值;最末组段
应包括全部观察值中的最大值
3.列出频数表
;身高组段
;二、频数分布的特征
频数分布的两个重要特征:集中趋势和离散程度
频数分布分类:对称分布和偏态分布
1、对称分布:频数分布的集中位置在中间,左右两侧大致对称
2、偏态分布是指频数分布不对称,集中位置偏向一侧:
(1)正偏态分布:集中位置偏向数值小的一侧
(2)负偏态分布:集中位置偏向数值大的一侧
;第二节 数值变量资料的描述性指标
一、集中趋势的描述
描述一组同质观察值平均水平或中心位置的指标有均数、几何均数、中位数、众数、调和均数等。本节仅介绍常用的均数、几何均数和中位数。 ;例2.2 某地随机抽取10名18岁健康男大学生身高(cm)分别为168.7,178.4,170.0,170.4,172.1,167.6,172.4,170.7,177.3,169.7,求平均身高。 ;(二)几何均数
1、适用:对数正态分布资料 ;观察值之间呈倍数或近似倍数变化(等比关系)的资料 。
2、计算:
直接法:;加权法:;表2-2 50名麻疹易感儿童平均抗体滴度计算表 ;3、注意:
计算几何均数时观察值中不能有0;
一组观察值中不能同时有正值和负值。
;(三)中位数
1、定义:一组观察值按由小到大的顺序排列后位次居中的数值。
2、适用:任何分布;偏态分布资料;频数分布的一端或两端无
确切数据资料。
3、计算:
直接法:用于样本含量较小的资料。将观察值由小到大排列 ;例2.6 某病患者9名,其发病的潜伏期(d)分别为:2,3,3,3,4,5,6,9,16,求发病潜伏期的中位数。 ;频数表法 :;表2-3 199名食物中毒患者潜伏期中位数的计算 ;附:百分位数是描述一组数据某百分位的位置指标。 ;二、离散程度的描述
前已提及,频数分布有集中趋势和离散程度两个重要特征,只有把两者结合起来才能全面反映数值变量资料的分布特征。集中趋势指标反映一组同质观察值的平均水平或中心位置,???散程度指标则反映一组同质观察值的变异度。常用的指标有全距、四分位数间距、方差、标准差和变异系数。 ;1.全距(range,简记为R) 亦称极差,为一组同质观察值中最大值与最小值之差。它反映了个体差异的范围,全距大,说明变异度大;反之,全距小,说明变异度小。
优点:全距虽然计算简单
缺点:①仅考虑了最大值与最小值之差,不能反映组内其它观察值的变异度;②样本含量越大,抽到较大或较小观察值的可能性越大,故全距可能越大。因此,样本含量相差悬殊时不宜用全距比较。
;2.四分位数间距
适用:用于描述偏态分布以及分布的一端或两端无
确切数值资料的离散程度
公式:
优点:由于四分位数间距不受两端个别极大值或极
小值的影响,因而它较全距稳定
缺点:仍未考虑全部观察值的变异度 ;3.方差
;4.标准差
优点:因方差的度量单位是原度量单位的平方,故将方差开方,恢复其原度量单位
;第三节 正态分布及其应用
一、正态分布的概念和特征
由表2-1频数表资料所绘制的直方图(图2-1A)可看出,高峰位于中部,左右两侧大致对称。设想,如果观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线(图2-1C)。该频数曲线(或频率曲线)近似于数学上的正态分布(normal distribution)。由于频率的总和为100%或1,故该曲线下横轴上的面积为100%或1。
?
;图2-1 频数分布逐渐接近正态分布示意图 ;正态曲线与标准正态曲线的面积分布 ;二、正态曲线下面积的分布规律
实际工作中,常需要了解正态曲线下横轴某一区间的面积占总面积的百分数,以估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率。对式(2.18)积分,求得的标准正态变量u 的累积分布函数反映了标准正态曲线下横轴自-∞到u的面积。为应用方便,统计学家编制了附表1标准正态分布曲线下的面积,;图 正态曲线与标准正态曲线的面积分布 ;(一)查表法步骤:
1、求u值;正态分布曲线下有三个区间的面积应用较多,应熟记:①标准正态分布时区间(-1,1)或正态分布时区间(μ-1σ,μ+1σ)的面积占总面积的68.27%;②标准正态分布时区间(-1.96,1.96)或正态分布时区间(μ-1.96σ,μ+1.96σ)的面积占
文档评论(0)