第6章 描述性统计.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6章 描述性统计

第6章 描述性统计与t、u检验 摘要:在SAS系统中,有多个过程可以进行描述性统计量的计算,常用的有:MEANS、SUMMARY、TABULATE和UNIVARIATE等。这些过程用来计算简单的描述统计量,可计算均值、标准差、方差、变异系数、标准误等。TTEST用于进行t、u检验。 从科研试验和生产实践中获得的数据往往是杂乱无章的,而实际上变量的分布多具有一定的规律性,表现出数据的集中趋势和离散特性。反映集中特性的统计量有平均数、众位数和中位数等,反映离散特性的统计量有极差、标准差、变异系数和方差等,对分布形状的度量一般采用峰度系数和偏度系数等。对这些统计量的计算是描述数据的较好方法。 MEANS 提供单个或多个变量的简单描述SUMMARY 提供单个或多个变量的简单描述TABULATE 提供单个变量的详细描述。 UNIVARIATE 提供单个变量的详细描述和对其分布类型的检验TTEST 用于进行t、u检验(不成对数据平均数检验)。 在SAS系统中,有多个过程可以进行描述性统计量的计算,表6.1给出了几个常用过程可以分析的各种统计量和一些其他重要特点。这些过程大同小异,有些功能可以彼此取代。 §6.1 MEANS过程 一、过程格式 PROC MEANS [选择项] [统计量关键字列表] ]; VAR ; 要分析的变量名列 BY 变量表; 按变量名列分组统计,要求数据集已按变量名列排序 CLASS 变量表; 按变量名列分组统计,不要求数据集排序 FREQ 变量表; 表明该变量为分析变量的频数 WEIGHT 变量表; 表明分析变量在统计时要按该变量权重 ID 变量表; 输出时加上该变量作为索引 OUTPUT OUT=数据集 [统计关键字=变量名 …]; 指定统计量的输出数据集名 关键字= 新变量名列... ] ; 指定统计量对应的新变量名 二、选择项说明 DATA=SAS数据集 将计算出的统计量输出到一个数据集。所有PROC MEANS语句中可用统计量均可在此指定。 NOPRINT 说明不输出任何描述性统计值。 MAXDEC=n 指出MEANS用于输出结果的最大小数位(0~8),缺省值为7。 FW=n n为输出统计量时的字段宽度,缺省值为12。 VARDEF=N|DF|WGT|WDF 指定方差计算所用的分母。 N表示观察值的总数 DF表示自由度N-1 WGT表示权重和WDF表示权重和减1。 MISSING 指定MEANS过程将缺失值视为一个特殊分组处理,否则缺失值将被剔除。 统计量 用来指定进行计算的描述性统计量(见表6.1)。缺省统计量选择项时,只输出N、MIN、MAX、MEAN、STD。 三、MEANS过程中常用的统计量关键字有: 基本统计量 N MEAN STD CV SUM VAR RANG MIN MAX USS CSS与假设检验有关的统计量 STDERR(标准误) T PRT(与t对应的p值) LCLM(可信区间下限) UCLM(可信区间上限) PROC MEANS过程中的其他语句 VAR语句:列入变量表的数据集变量将被MEANS过程分析、若无次句,则计算输入数据集中除BY、ID、CLASS、FREQ、WEIGHT语句中的变量之外的所有变量的统计量。 BY语句:指定变量进行分组处理。(事先必须按BY语句指定的变量将输入数据集按升序排序) CLASS语句:将数据集中全体观察值按CLASS语句中变量进行分组、分析处理。BY与CLASS语句的作用都是按指定的变量进行分组分析处理,但二者有不同: 分组层次不同:BY语句把全部观察按BY指定的变量分组;CLASS是在BY语句的基础上将BY分组再进一步行划分,进行分组变量的组合,产生多种凡是分组。例如: CLASS A B C;则按指定变量A、B、C各种组合,可以有8种方式: 不分组、按变量A分组、按变量B分组、按变量C分组、按变量A和B分组、 按变量A和C分组、按变量B和C分组、按变量A、B、C分组。 按BY语句只有按变量A、B、C分组,且使用BY语句时,事先将数据集按BY后面的变量排序。而CLASS无此要求。 REQ语句:指定某一变量,表示同一观察的出现次数。 OUTPUT OUT=数据集:将MEANS过程的结果输出给指定的数据集中。 六、结果解释 在默认的情况时,means过程会输出绝大部分统计量,此时的输出结果如下: Variable=变量名 变量标签 Moments 和矩有关的统计量 Quantiles(Def=5) 分位间距统计量 N 样本量 Sum Wgts 权重总和 100%

文档评论(0)

ccx55855 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档