2016年SAS大赛初赛试题.docxVIP

下载本文档

213
0
约1.54千字
约 3页
2018-10-27 发布于河北
举报

2016年SAS大赛初赛试题.docx

2016年SAS大赛初赛试题

Sas数据分析大赛试题注意：建立逻辑库test保存所有原始数据集，每道题要将代码和运行结果保存在word文档中。 1、（20分）a600605所给数据中包含上证股票600605，1995-2001年的行情信息。其数据信息如下所示。 [题目要求] 使用Data步计来计算a600605这支股票在1995-1998年的市场收益，即该股票的月收益率（个股月收益率＝[（本月收盘价－上月收盘价）/上月收盘价]×100%），过程中不要使用dif和lag函数。其中date的格式设置为‘1995-01’的形式，并删除1995年1月的观测数据。编写graph，绘制a600605这支股票的收益率曲线，横坐标标签改为“日期”，纵坐标标签改为“月收益率” 2、（30分）数据集credit_old中存放的是用于构建客户信用模型的数据，其中Target为被解释变量，其他变量为解释变量。由于字符变量不能用于后续的统计分析工作，因此需要将credit_model中的字符变量重编码为数值变量。由于分析时并不关心每个水平的具体编码是什么，因此按照从1到K（K为该变量水平数）编码即可，比如Res变量一共用3个水平，分别是U、R、S，编码为1、2、3即可。但是需要使用宏进行自动处理。 [题目要求] 将TEST库下的credit_old数据集复制到work逻辑库下，并重命名为 credit_new。（5分）使用数据字典读取credit_new数据集下所有解释变量中的字符变量的个数和名称。（10分）编写宏，为每一个字符变量重新编码，以“变量名_cd”的命名方式保存新的编码，并添加到原credit_new数据集的后面，效果如下：（15分） 3、（25分）数据集BASE来源于一个全国性的社会学调查的一部分，采集了受访者对于一些社会问题的感受。变量标签 Q8 您认为您的收入水平在整个社会中处于何种位置？ Q22 就目前社会环境来说，您认为凭个人努力可以获得良好发展的希望有多大？ Q3F 贫富差距扩大 age10 年龄组 weight 权数所有的数据除了weight之外，全部是等级数据，分值越高意味着评价越正面。以weight为权数，根据数据集当中的变量，结合宏语言，编写宏程序完成下面的问题。 1）对于各个变量进行描述性分析 2）对四个变量，进行两两的列联表分析，生成的列联表保存，进行分卡方检验和其他分类数据相关系数的计算。 3）对于2中形成列联表，对于每个格子计算频数占总频数的比例，然后检验任意两个格子间的比例差异是否显著（两比例是否相等检验），要求计算出检验的P值。（注意：此检验sas没有直接提供，需要用宏语言自己完成） 4）以年龄为条件，同其他三个变量中的任意两个，进行三维列联表分析，进行整体cmh检验，并将生成的列联表保存。 5）（可选）将4中生成的列联表，同样计算每个格子频数占总频数的比例，检验任意两个格子中的比例差异是否显著。 4、（25分）数据集coal中保存的是1980-2010年我国煤炭消费量和1980-2015年gdp的相关数据，根据数据的相关结构，结合宏语言，建立宏程序，完成下列题目。 1）利用ARIMA模型预测未来我国煤炭消费，要完成数据探索、模型识别、参数估计检验、模型优化的全部过程，最好要将建模过程写成宏程序调用。 2）利用指数平滑模型，对于我国煤炭消费量进行预测，同样完成模型识别、参数估计、优化，同时将参数估计结果保存，最好将建模过程写成宏程序调用。 3）以我国gdp为说明变量，煤炭消费量为因变量，建立带自回归误差的回归模型（autoreg过程），对煤炭消费量进行预测。尝试不同的滞后阶数，建立模型，降低自相关程度，最后选择最优模型。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2016年SAS大赛初赛试题.docxVIP