SAS中的描述性统计过程.docxVIP

下载本文档

1
0
约5.09千字
约 7页
2019-09-27 发布于江苏
举报
版权申诉

SAS中的描述性统计过程.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

SAS中的描述性统计过程 ?(2012-08-01 18:07:01) 转载▼ 标签：? 杂谈分类：? 数据分析挖掘 ???????????SAS中的描述性统计过程　　描述性统计指标的计算可以用四个不同的过程来实现，它们分别是means过程、summary过程、univariate过程以及tabulate过程。它们在功能范围和具体的操作方法上存在一定的差别，下面我们大概了解一下它们的异同点。相同点：他们均可计算出均数、标准差、方差、标准误、总和、加权值的总和、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、遗漏数据和有效数据个数等，均可应用by语句将样本分割为若干个更小的样本，以便分别进行分析。不同点：（1）means过程、summary过程、univariate过程可以计算样本的偏度（skewness）和峰度（kurtosis），而tabulate过程不计算这些统计量；（2）univariate过程可以计算出样本的众数（mode），其它三个过程不计算众数；（3）summary过程执行后不会自动给出分析的结果，须引用output语句和print过程来显示分析结果，而其它三个过程则会自动显示分析的结果；（4）univariate过程具有统计制图的功能，其它三个过程则没有；（5）tabulate过程不产生输出资料文件（存储各种输出数据的文件），其它三个均产生输出资料文件。　　统计制图的过程均可以实现对样本分布特征的图形表示，一般情况下可以使用的有chart过程、plot过程、gchart过程和gplot过程。大家有没有发现前两个和后两个只有一个字母‘g’（代表graph）的差别，其实它们之间（只差一个字母g的过程之间）的统计描述功能是相同的，区别仅在于绘制出的图形的复杂和美观程度。　　chart过程和plot过程绘制的图形类似于我们用文本字符堆积起来的图形，只能概括地反映出资料分布的大体形状，实际上这两个过程绘制的图形并不能称之为图形，因为他根本就没有涉及一般意义上图形的任何一种元素（如颜色、分辨率等）。而gchart过程和gplot过程给出的是真正意义上的图形，可以用很多的语句和选项来控制图形的各方面的性质和特征。　　chart和gchart与plot和gplot的区别则体现在不同的作图功能，前两个过程可以绘制出的图形主要有条形图（包括横条和竖条）、圆图、环形图和星形图等，后两个过程通常用一个记录中的两个变量值表示点的坐标来绘制图形，如散点图和线图等。　　描述性统计过程的一般格式　　1. means过程的一般格式 proc means?选项列表； by?变量名称（分组变量）； class?变量名称（分组变量）； freq变量名称（数值变量，用以表示相应记录出现的频数） weight变量名称（数值变量，用以表示相应记录的权重系数）　var?变量名称（待分析的数值变量）； run；　　Proc means?语句后的选项主要用来指定所要计算的统计量，默认情况下，Means过程会给出频数、均数、标准差、最大值和最小值等，其余统计量的计算均需要在选项中指定。class语句所指定的分组变量用来进行分组，而by语句所指定的分组变量是用来将数据分为若干个更小的样本，以便SAS分别在各小样本内进行各自独立的处理。freq语句和weight语句分别引导代表记录出现频数和权重系数的数值变量。var语句引导所要进行分析的所有变量的列表，SAS将对var语句所引导的所有变量分别进行描述性统计分析。 ?summary过程的一般格式 proc summary?选项列表；　by?变量名称（分组变量）；　class?变量名称（分组变量）；　freq变量名称（数值变量，用以表示相应记录出现的频数）　weight变量名称（数值变量，用以表示相应记录的权重系数）　output out=数据集名统计量关键字=自定义变量名　var?变量名称（待分析的数值变量）； run；　　summary过程的格式和means过程可以说是完全相同的，各条语句和选项的含义也是相同的，包括在means过程中未列出的output语句也可以应用于means过程，只是此语句在summary过程应用较多（这样才能将分析结果显示出来），所以才将其列入一般格式中。output语句用来对分析结果输出为数据文件进行控制，其后的选项可有可无，若无则SAS按照默认方式进行。“out=数据集名”用来定义输出数据文件的文件名称，文件名的格式和数据步中数据文件名相同。“统计量关键字=自定义变量名”用来自定义输出数据文件中各种统计量的变量名称，前者是系统定义的（和proc语句后选项中的统计量关键字完全相同），必须正确