- 1、本文档共151页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * SAS宏 利用宏可以减少在完成一些共同任务时必须输入的文本量 利用宏可以使程序模块化,使程序易读、便于修改、移植、方便重复使用 * SAS宏变量 宏变量属于SAS宏语言,与普通变量的区别是可以独立于DATA步 可以在SAS程序中除数据行之外的任何地方定义并使用宏变量 %let语句定义宏变量并分配一个值给宏变量(如:%let dsn=3) 当引用一个宏变量的值,放号在宏变量前 * SAS宏变量(macro_str,_var,_auto例) 使用%str函数围住宏变量的值,使得在这个值内部的分号作为这个文本的部分,而不是%let语句的结束 使用%put语句在LOG窗口显示宏变量的值 SAS/BASE中的自动宏变量,如:sysver, systime(给出SAS程序或会话开始执行的时间); * SAS宏 用%macro语句开始一个宏,同时给出这个宏的名字。如:%macro dsn;用%mend语句结束一个宏,其后给出宏名字。如:%mend dsn; 放一个百分数符号(%)在宏名字的前面以调用一个宏,如%dsn Macro例 * 宏参数 被定义在一个%macro语句的宏名字后括号内的宏变量称为宏参数,可以直接给出宏参数的值,也可以在调用这个宏时给出这些参数的值。 对参数分配的值只在这个宏执行时有效,而宏变量从用户创建直到SAS会话结束前都存在 macroP1例、macroP2例 * SAS错误的处理 一、句法错误:当程序语句与SAS语言准则不一致时发现的错误,如关键词拼错,少掉分号等。 二、词义错误:元素在当前程序语句中的用法是无效时产生,如do over a 三、数据错:当有些数据值不适合用户规定的格式时出现 * SAS错误的处理 四、运行错:当SAS执行程序时在数值上出现的错误,如用0作为除数,infile引用的文件地址不存在等 常见错误:1、遗漏run语句,在活动窗口的标题栏里显示proc(或data) step running * SAS错误的处理 2、遗漏分号,在log窗口中显示错误,将下一个有效的语句解释为无效的语句 3、引号不配对,log信息指明字符串太长或语句被混淆 4、无效选项,log指明选项无效或不认识 5、出现错误时可以同时按下ctrl+break中断程序 * SAS错误的处理 6、注意有汉字输入的程序中可能带来的输入法兼容性错误,解决方法是重新输入,并检查错误 * 数据挖掘模块(Data miner) 大型数据远在天边,近在眼前 数据的迅速增加与数据分析方法的滞后之间的矛盾→数据挖掘应运而生 数据挖掘是从大量数据中提取出隐藏在数据之后的有用的信息,揭示潜藏在大型数据里的事物规律 * 数据挖掘的应用 天文学上的应用:SKICAT (Sky Image Cataloging and Analysis Tool),自动分类和测量观测到的天体 金融投资:对大量即时数据进行自动分析和学习提高。 市场营销:通过数据分析了解客户购物行为的一些特征 * 从一个数据挖掘实例谈起 市场营销的一个例子:投放宣传品的数据挖掘: 1、界定商业问题 2、数据转为信息 3、基于信息的商业行为 4、结果评估 * 数据挖掘DM-sample 数据挖掘中的数据角色: Raw:原始数据Training: 用于建模的训练数据Validation: 调整模型估计量值的数据Test: 检验模型的数据Score:得分数据,记录分析结果 * 数据挖掘DM-sample 抽样带来的两个问题: 1、多大比例的样本能真实的反应整体 2、样本的质量问题如何决定样本的有效性。高质量的样本应该是整体的一个精确微缩,它保存了单个变量的分布和变量之间的关系。 * 数据挖掘DM-sample 抽样的方法决定前述两个问题的解决 1、简单随机抽样 2、分层随机抽样 3、过度抽样 * 数据挖掘DM-modify 变量属性:target-目标变量input-可以进行预测的变量reject-不可以进行预测的变量id-标识变量 * 数据挖掘DM-modify 数据类型 Unary-1个值变量binary-2个值变量nominal-多于2个值的名义变量ordinal-多于2个不多于10个值的数值变量interval-多于
文档评论(0)