SAS系统和数据分析SAS数据集的编辑参考.doc

SAS系统和数据分析SAS数据集的编辑参考.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SAS系统和数据分析SAS数据集的编辑参考

SAS数据集的编辑 通常从外部数据源转换得到SAS数据集后,并不是所有的数据集都满足统计数据要求,可立即调用统计过程进行统计分析。需要对数据集进行满足统计数据要求的编辑或生成新的数据集。 增加数据集一个新变量 SAS系统可通过赋值语句把包含操作符的表达式赋值给数据集所要创建的新变量。SAS的表达式中还可以包含SAS函数,如一些常用的SAS函数见下表: 函数分类 常用函数 功能 数学运算函数 ABS( ) 取绝对值 SQRT( ) 求平方根 INT( ) 取整数部分 EXP( ) 计数e的次幂 LOG( ) 求e为底的自然对数 SIN( ) 计算正弦 LAGn( ) 求给定变量滞后为n的值 统计计算函数 MAX( ) 求最大值 MIN( ) 求最小值 MEAN( ) 求平均值 SUM( ) 求和 DIFn( ) 求给定变量X的第n阶差 STD( ) 求标准差 PROBNORM( ) 标准正态分布函数 日期时间处理函数 DATE( )/TODAY() 取当日的日期值 DAY( ) 计算某月的那一日 HOUR( ) 计算小时 TIME( ) 取当日的时间 YEAR( ) 取年值 字符函数 INDEX( ) 搜寻字符串的位置 LEFT( ) 字符串表达式左对齐 SUBSTR( ) 抽取子字符串 TRIM( ) 移走尾部空格 LENGTH( ) 给出字符变量的长度 UPCASE( ) 转换为大写 财政金融函数 COMPOUND( ) 计算复利 IRR( ) 计算内部赢利率 NPV( ) 计算净现值 SAVING( ) 计算定期储蓄的本金和利息 例如,有一个学生成绩数据集中的数据来源写在CARDS语句后,但我们还需产生新的变量平均分和总分,数据步的程序如下: Data class2 ; Input id test1-test5 ; average=mean(test1,test2,test3,test4,test5); total=test1+test2+test3+test4+test5; Cards ; 100 100 100 100 100 90 100 90 100 90 81 82 83 84 85 Proc print data=class2 ; Run ; 在OUTPUT窗口中显示的运行结果见图11.1所示。 选择数据集的变量和观测 数据库的三种基本操作是选择、投影和连接,如果我们把数据库看成是一张表格,选择和投影操作相当于从一张大的数据库表格中挑选所需的行和列形成一张小的数据库表格。连接操作相当于把两张或两张以上的数据库表格按某种规则合并成一张数据库表格。原始数据库表格可以是外部数据文件(用INFILE语句输入),或在作业流中(用CARDS语句输入),或来自其他SAS数据集(用SET语句输入)。 选择变量(即选择列) 使用DATA语句的DROP=和KEEP=选项可以控制从原始数据库中读出的变量是否被写入将要创建的数据集。 例如,假设我们要从CLASS2数据集中产生只包含ID、AVERAGE和TOTAL变量,而不包含TEST1、TEST2、TEST3、TEST4、TEST5变量的新数据集CLASS3。有两种程序编法都能达到相同的目的,一是使用DATA语句的DROP=选项,表示从原有变量中去掉DROP=中指明的变量;二是使用DATA语句的KEEP=选项,表示从原有变量中只保留KEEP=中指明的变量。程序如下: 程序一: Data class3 (drop=test1 test2 test3 test4 test5 ) ; Set class2 ; Proc print data=class3 ; Run; 程序二: Data class3 ( keep=id average total ) ; Set class2 ; Proc print data=class3 ; Run ; 程序一和程序二的运行结果相同。在OUTPUT窗口中显示的运行结果如图11.2所示。 选择观测(即选择行) 选择满足条件的记录行来形成新的数据集,可使用DATA步的IF语句,IF语句的作用就像一个过滤网,IF语句中的条件表达式就像过滤网的形状,只允许符合条件表达式的记录行通过,如果条件表达式恒为真,意味着过滤网是空的,让所有的记录行通

文档评论(0)

2017meng + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档