第4章SAS过程步与过程步语句解析.doc

下载文档 降价啦

2
0
约6.16千字
约 8页
2017-01-18 发布于湖北
举报
版权申诉
保障服务

第4章SAS过程步与过程步语句解析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第4章SAS过程步与过程步语句解析

第4章 SAS过程步与过程步语句摘要：本章讲授过程步一般形式，SAS过程步产用常用语句，程序设计中通用的SAS语句，学习过程步常用有关语句功能及其用法。为后面统计分析过程的调用作好准备。 SAS过程步用来调用系统提供的标准常用过程或统计分析过程，对指定的SAS数据集进行处理，并将分析结果显示输出到OUTPUT窗口。一个过程步是一个功能程序模块，调用不同的过程可实现用不同方法对数据进行分析。 §4.1 SAS过程步的一般形式通常，SAS过程步的一般形式为： PROC 过程名选择项; [其他相关过程步语句;] RUN; 说明： ROC表示一个过程的开始；“过程名”可以是后面各章节将要介绍的常用过程名或统计过程名。不同的过程有不同的专用SAS名，而且各有一些可供选择的选择项（参数），对于同一过程，给定不同的参数，输出不同的计算结果和不同表格形式。选项：选择项一般以关键字为核心构成，常用下面三种形式： ①关键字在过程中，一个关键字代表该过程的某一特性，若关键字作为选项出现，则过程处理数据或输出结果时，这一特性予以考虑。否则，忽略这一特性。 ②关键字=值过程的某一特性可取不同的值，则指定该特性的书写格式为：特性关键字=特性值（数字或字符串）。 ③关键字=SAS数据集有些过程需要特定的输入数据集，有些过程可以建立一些特殊的数据集。过程指定特别输入输出数据集的选项书写格式为：关键字=数据集名该形式规定输入或输出的数据集，最常用的是DATA=数据集，指出本过程要处理的数据集名称，若缺省，则使用最新建立的数据集。如“PROC PRINT DATA=new;”。 3．其他相关过程步语句：有VAR、ID、BY、CLASS、WEIGHT等过程步语句，将在下一节中讲述。 4． RUN的作用是通知系统开始执行本过程程序段，当一个程序文件中有几个过程时，它们可共用一个RUN语句。 5．常用的过程步名称及功能： SAS程序中涉及的过程多达数百种，实现统计功能时常用的过程也有数十种之多，现将最为常用的过程名称及其所能实现的功能列入下表（表4.1），以便各位提前热热身。表4.1? 常用的过程名称及其功能过程名功能 Sort 将指定的数据集按指定变量排序 Print 将数据集中的数据列表输出 tabulate 将数据按照指定的分类变量以表格的形式分类汇总 Means 对指定的数值变量进行简单的统计描述 Freq 对指定的分类变量进行简单的统计描述 Ttest 对指定的变量做t检验 Anova 对指定的变量做方差分析 nparlway 对指定的变量做非参数检验 Reg 对指定的变量做回归分析 Corr 对指定的变量做相关分析 Discrim 对指定的变量做判别分析 Cluster 对指定的变量做聚类分析 Chart 绘出低分辨率的统计图 FORMAT 提供用户自定义的输出格式 GPLOT 对两个变量作的散点图或折线图 §4.2 常用过程步语句本节介绍的语句是为某些过程进一步提供数据处理信息的，对一个特定的语句，可能有些过程需要它，而有些过程中不能出现，在有关的过程章节中予以说明。一、VAR语句 1．功能：用于列出将参与运算处理的分析变量，各变量名间以空格分隔。若省略VAR语句，则所有的数值型变量都参与处理。 2．格式：VAR 变量表; 其中，变量是一个数据集变量，变量表是是用空格分隔的输入数据集中的一些变量名，出现在变量表中的数据集变量参与过程的数据分析处理，而未出现的变量将不参与运算。例如： DATA new; INPUT x y@@; CARDS; 10 20 11 12 PROC MEANS; VAR x; RUN; 输出结果： Analysis Variable : X N Mean Std Dev Minimum Maximum 7 13.0000000 2.1602469 10.0000000 16.0000000 二、ID语句功能：指定用于区分不同观测的变量。格式：ID 变量；其中，变量是一个数据集变量，通常称为“标识变量”，不同的观测中该变量的值不同，某些过程的输出结果与观测有关，ID语句指定的变量值用于区分不同观测；如果ID语句省略，则用观测的序号来区分不同的观测。例如：data; input name$ sex$ age; cards; aa f 34 ab f 25 ba m 56 bb m 21 proc print; id name; run;