- 1、本文档共49页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8章 数据装载与数据集管理
数据步数据装载 数据步和连接oracle数据库的逻辑库结合,可以把数据集装载到oracle关系数据库中,这也是一种装载方式。语法格式如下: Libname 逻辑库名 oracle user=登录数据库用户名 Password=登录数据库密码 path=登录数据库实例; libname 逻辑库 1 ‘数据集物理路径’; Data 逻辑库名.表名; Set 逻辑库名 1. 数据集名; Run; 【语法解读】 首先建立连接数据库的逻辑库。对于数据集不是存储在work临时逻辑库中的,要建立存储路径逻辑库. Data 逻辑库名.表名:指定数据集装载到oracle 数据库目标表中,表不存在时自动创建。 Set: set语句读入要装载的数据集。 【注意】数据步装载数据集到oracle数据库中,在数据步创建的新数据集指定bulkload=yes,告诉SAS 系统使用oracle的sql*loader方式装载。 Sql过程数据装载 Sql过程实现数据集装载到oracle数据库目录表中,也是实现数据装载的一种方式,可以加入选项语句设置装载方式。语法格式如下: libname 逻辑库名 oracle user=登录数据库用户名 password=登录数据库密码 path=登录数据库实例; libname 逻辑库 1 ‘数据集物理路径’; proc sql noprint; create table 逻辑库名.表名 选项 as select * from 逻辑库名1.数据集名过滤条件语句; run; 语法解读 Sql过程装载利用了“create table”创建表语句,相当于把“select * from”查询出来的数据集信息装载到所创建的表。 表8-5 常用选项说明 选项 说明 bulkload 指定是否用oracle的sql*loader方式 Bl_options 指定sql*loader方式允许的错误条数,默认值为1000000 Bl_delete_datafile 删除产生的数据文件 Sort过程数据集整理 Sort过程主要用来对数据集进行排序,根据by语句指定的变量对数据集排序,同时可以将过滤出来的重复记录输出到另一个数据集存储。 语法格式:proc sort 选项指定按什么类型排序选项; By descending 变量名1 descending 变量名2; Run; 表8-6 sort过程常用选项说明 【注意】force是对有索引的想强制排序和替换 选项 说明 表8-7 指定按类型排序选项 【注意】by: by语句指定排序变量,默认为升序,指定多个排序变量时用空格分隔,排序时sort过程先按by语句指定的第一个变量排序,然后再按第二个变量排序,依次类推。 选项 说明 ASCII 指定按ASCII码排序 EBCDIC 指定按EBCDIC码排序 DANISH 指定按DANISH码排序 FINNISH 指定按FINNISH码排序 NORWEGIAN 指定按NORWEGIAN码排序 SWEDISH 指定按SWEDISH码排序 NATIONAL 指定按习惯顺序排序 SORTSEQ 指定按上面所列任一类型排序 1.dupout=选项与nodupkey=语句的联合应用 Dupout=选项指定数据集名,此数据集存放过滤掉的重复数据信息,此项必须与nodupkey或noduprecs任一项一起使用。 2.dupout=选项与noduprecs语句的联合应用 Noduprecs删除完全相同的记录,不根据id判断。 【注意】使用dupout=语句指定时对原数据集进行了修改。 3.out=语句应用 Out=语句将排好序的数据集输出到out=语句指定的数据集保存,对原数据集不做修改,保存原数据集原样。 【注意】两点关于选项区别的总结 (1)out=与dupout=的不同之处: Out=:将原数据集排好序的数据集输出到out=语句指定的数据集存储,对原数据集不做任何修改。 dupout=: 对原数据进行了修改,去掉重复数据,同时将删除的重复数据存储到dupout=语句指定的数据集中。此选项要与nodupkey或noduprecs中的一个选项一起使用才有效。 (2)nodupkey与noduprecs的不同之处: Nodupkey:根据by语句指定的变量,删除重复数据。 Noduprecs:删除完全相同的观测记录。 Datasets过程数据集整理 Datasets过程主要用来管理SAS数据逻辑库中的成员,通过这个过程,可以实现对逻辑库中的成员输出列表、改名、添加或修改逻辑库成员中的信息等功能;能改变变量名,并可以定义输出格式、输入格式和变量标签,其中append过程、contents过程和copy过程都可以在此过程中使用。 Da
文档评论(0)