第5-章 统计据代表值计算.docVIP

  • 8
  • 0
  • 约3.06万字
  • 约 44页
  • 2016-10-16 发布于贵州
  • 举报
第5-章 统计据代表值计算

第5章 统计数据的标志值计算及其描述 5.3 探索性统计分析 前面介绍的统计资料描述方法通常是先将统计资料分组处理,然后把分组资料画成各种图分析其分布规律。但这种传统的统计资料处理方法有一定的局限性,容易失去原始资料的真实性。为了克服这一弊端,70年代开始国外已经出现了新的探索性资料分析方法。探索性资料分析特征操作简便,能够准确地描述统计变量分布情况。在这里只介绍最常用的茎叶图和箱线图。 5.3.1 箱线图(Boxplot) 箱线图是把第一四分位数,第二四分位数(中位数),第三四分位数,四分位数范围,最大值及最小值画成一个箱子和一条线。 将箱子两侧超过四分位数差1.5倍范围内的值用点线(--)连接起来,超出四分位数差1.5倍至3倍范围的值为零,超过3倍的特别大或特别小的异常值用*表示。如果我们所研究的统计资料的分布是对称的,那么Q2垂直线将落在箱子的正中央。如果Q2垂直线落在靠近Q3的位置,那么分布的长尾拖向左边;相反Q2垂直线落在靠近Q1的位置,那么分布的长尾拖向右边。因此不同的箱线形状就反映出不同的分布特征(见图5-6)。 5.3.2 茎叶图(Stem-and-leaf Display) 茎叶图将提供统计资料的分布形态、范围、集中程度等情报。利用茎叶图主要有两个优点,首先它既能保留原始资料的真实情报,又能为准确计算平均数等代表值提供方便。特别是对100个以下观测值的频数分布分析非常有用。其次SAS for Windows在统计量的分组中,茎叶图可将统计分组和画直方图一次完成,不会出现重复分组的可能。茎叶图将树茎置于垂直线的左侧,树叶在垂直线的右侧按顺序排列。绘制茎叶图,关键是要设计好树茎,这好比和资料分组时,先确定分组数和每组的组限一样重要。 茎叶图是以观测值的间隔为纵坐标(茎),观测值的末尾数字为横坐标(叶),叶的右边数字为相应区间内观测值的个数。观测值的间隔为系统自动给出,当观测值的个数小于30时,数据间隔为10,当大于30时,间隔为5。 Stem Leaf # 9 1 1 8 4 1 7 125 3 6 135689 6 5 2558 4 4 567 3 3 5 1 2 2 1 ----+----+----+----+ Multiply Stem.Leaf by 10**+1 5.4 利用SAS程序计算描述性统计量 5.4.1 PROC UNIVARIATE 前面我们叙述了平均数、中位数、众数、偏度系数、方差、标准差等代表分布集中趋势和离散趋势的标志值和箱线图及茎叶图等探索性资料分析。下面将介绍利用SAS for Windows,计算和分析描述性统计量)的基本方法(SAS程序),SAS for Windows统计分析的基本形式如下: ① PROC UNIVARIATE OPTION1; ② VAR 变量名1 变量名2 … 变量名n; ③ BY 变量名1 变量名2 … 变量名n; FREQ 变量名; WEIGHT 变量名; OUTPUT OUT=dsn option2; □PROGRAM 解释 ①PROC UNIVARIATE; SAS for Windows统计分析PROC UNIVARIATE命令是最常用的命令,也是最重要的命令之一,用来分析各种各样的描述性统计量。PROC UNIVARIATE命令不仅具有统计量分析功能,还具有打

文档评论(0)

1亿VIP精品文档

相关文档