正态分布的特征.ppt

正态分布的特征

基本概念 资料类型 计量资料:用度量衡的方法测定每个观察单位的某项研究指标量的大小,所得数据为数值变量。 计数资料:将全体观察单位按某种性质和类别进行分组,然后清点各组中的例数,所得数据为计数资料。 等级资料:将全体观察单位按某种性质的不同程度分组,然后清点各组中的例数,所得数据为计数资料。 基本概念 总体:根据研究目的确定的同质观察单位的全体。 样本:从总体中随机抽取有代表性的部分个体,个体数的多少称为样本例数。 抽样误差:由于个体变异造成的,系抽样机遇造成的,是客观造成的,不可避免的。 概率:某随机事件发生的可能性大小的数值。(硬币) 基本步骤 设计 搜集资料 整理资料 分析资料 统计描述 主要内容 §2.1 频数表 §2.2 数值变量资料的描述性指标 §2.3 正态分布及其应用 §2.4 分类变量资料的统计描述 §2.5 统计表和统计图 §2.1 频数表 频数表的概念 频数表的编制方法 频数分布的特征 频数分布的类型 频数表的用途 一、频数表的概念 当样本含量 n 较大时,为了解样本中观察值的分布规律和便于指标计算,可编制频数分布表,简称频数表(frequency table)。 频数:对某一随机现象进行重复观察,或测量大量个体的某项特征,其中某个或某一组变量值出现的次数。 频数表:将各变量值与其相应的频数列成表格形式即为频数表。 二、频数表的编制 编制频数表时不可能把所有的变量值及其相应频数都列出来,特别是当样本例数 n 较大时,此时需要根据变量的取值范围划分为若干个组段,再汇总各组段的频数。 具体步骤如下:以例2.1资料为例。 例2.1某地2004年抽样调查 100名男大学生的身高(cm) 全距(或极差,range)是最大值与最小值之差,用 R 表示。 例2.1中,最大值为183.5cm,最小值为162.9cm, 故R =183.5-162.9=20.6(cm)。 组段数:根据样本含量的多少确定,一般设8~13个组段。 组距:各组段的起点和终点分别称为下限和上限,相邻两组段的下限之差(或每一组段的上、下限之差)称为组距。一般取等距分组,常用全距的1/10取整做组距。某组段(下限+上限)/2为组中值。 划分组段:各组段应是连续的,不能有交叉或重叠。第一组段应包括最小值;最末组段应包括最大值,并同时写出其下限与上限。 例2.1中,全距的1/10为 20.6/10 = 2.06,组距取整为2.0cm ;最小值为162.9cm,故第一组段的下限为162cm,第二组段的下限为164cm,依次类推,最末组段为182cm?184cm,包含最大值183.5cm 。 3. 列出频数表 采用计算机或划记法将原始数据汇总,得出各组段的观察例数,即频数,把各组段(或各观察值)及其相应的频数列表即为频数表 。 注意:最末组段应写出上、下限,其余组段只包含下限,不包含上限。 当变量的取值较少时,列表方法比较简单,如: 三、频数分布的特征 频数分布的两个重要特征: 1. 集中趋势(central tendency):身高向中央部分集中,以中等身高居多(172cm?组段),此为集中趋势。反映集中位置或平均水平。 2. 离散程度(tendency of dispersion):由中等身高到较矮或较高的频数分布逐渐减少,反映了身高的离散程度。 对于数值变量资料,应用集中趋势和离散程度二者结合起来分析其分布规律。 四、频数分布的类型 对称分布:指频数分布的集中位置在中间,左右两侧大致对称。 偏态分布:指频数分布不对称,集中位置偏向一侧:集中位置偏向数值小的一侧,称为正偏态分布; 集中位置偏向数值大的一侧,称为负偏态分布。 如冠心病、大多数恶性肿瘤等慢性病患者的年龄分布为负偏态分布。临床上正偏态分布资料较多见。 不同的分布类型应选用不同的统计分析方法。 五、频数表的用途 频数表可以揭示资料分布类型和分布特征,以便选取适当的统计方法; 便于进一步计算指标和进行统计分析; 便于发现资料中的某些特大或特小的可疑值。 当样本含量特别大时,可以频率估计概率。 作为资料的陈述形式。在文献报告中,用频数表既可直观地反映被研究事物的分布特征,又便于作进一步的分析研究。 §2.2 数值变量资料的描述性指标 集中趋势的描述 集中趋势指标反映一组同质观察值的平均水平或中心位置。常用指标有均数、几何均数、中位数、众数、调和均数等。 离散程度的描述 离散程度指标反映一组同质观察值的变异度 。常用指标有全距、四分位数间距、方差、标准差和变异系数。 一、 集中趋势的描述指标---(1)均数 均数(mean)是算术均数(arithmetic mean)的简称。 定义:指所有观察值的

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档