- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SAS
数据挖掘与应用
实验报告
陕西省各地市经济发展水平评价研究
实验要求:
1. 选择经济领域中的一个问题,确定相关的分析变量,描述通过数据挖掘来探究
(或解释、或解决)问题的逻辑思路,说明预期的结果(结论)等。
2. 查询和搜集相关原始数据
3. 整理、准备数据,建立数据集
4. 采用二种或二种以上的挖掘方法,或进行对比分析,或先后进行多个阶段的分
析。
5. 对挖掘结果进行分析和说明。
6. 总结研究结论或结果。
实验目的:
1. 熟悉SAS 软件操作
2. 练习SAS 编程
3. 学习并练习描述性统计分析、因子分析等方法与实际操作
4. 研究实际问题
问题描述:
陕西省各市的经济发展一直受到陕西人民的关注,而对于2014 年如何分析各市
的发展情况,一直是一个仁者见仁的问题,指标体系的建立以及研究方法的选择
多种多样,本文以各市2014 年各市的重要经济发展指标出发,对 11 个地市的
经济发展进行评价
解决思路:
为了研究上述问题,我们应当以2014 年的各地市相关经济发展指标为数据源,
通过描述性统计分析对整体数据进行初步了解;并利用主成分分析对2014 年各
地市的经济发展进行一个综合评价和排序。
1. 描述性分析
2. 主成分分析
实验过程:
1.搜集数据
通过陕西省统计局网站搜寻到 2014 年各地市经济发展的指标并汇总,选择
其中的五个指标(生产总值、财政收入、固定资产投资、外贸进出口总额、
人均可支配收入),得到如下数据:
2.数据准备和预处理
首先建立数据集,我将数据存在D:\saswork.sas 中
为便于进行分析,将生产总值、财政收入、固定资产投资、外贸进出口、人
均可支配收入均用X1 -X5 代替。
3.描述性统计分析
①单变量分析:
首先要对数据的基本情况有一个初步的了解,因此先进行单变量分析。再次我们
利用means 过程计算一些描述性统计量,编写程序如下:
proc means data=saswork.sas maxdec=2
mean std max min range cv skewness;
var x1-x5;
run;
运行结果如下:
分析:
陕西省各市生产总值平均水平约为1613 亿元,从标准差看来,无论是哪个指标
都有着较大的差异,而且变异系数除了X5 (人均收入)外其他都有着较高的值,
这也说明了各地市的经济发展水平不同,而且在最大值的选择中,西安市的值正
好与最大值相对应,说明西安市的经济发展处于绝对优势地位,但仅仅如此并不
能反映出更多的信息,因此进行接下来的进一步统计指标计算和分析。
②相关系数分析和P 值检验
代码如下:
proc corr data=saswork.sas;
var x1-x5;
run;
运行后得到相关系数矩阵:
从相关系数矩阵看到,除了人均可支配收入外,其他四个变量之间都有着较强的
相关性,且P 检验值明显较小,因此可以通过降维来进行进一步数据处理。
4.主成分分析
在本次降维过程中,我们选择提取至85%以上的信息即可,编写代码如下:
proc factor data=saswork.sas;
var x1-x5;
run;
运行结果部分如下:
以上为因子分析的结果,第一列为特征根,三四列为方差贡献率以及累积方差贡
献率,可以看出,前两个因子的累积方差贡献率就可以提供93%以上的信息,因
此选择因子1 和2,运行如下程序,输出两个因子:
proc factor data=saswork.sas n=2;
var x1-x5;
run;
结果如下:
分析:这里给出了因子的载荷矩阵,因子1 包含了变量1-4 的主要信息,而因子
2 则包含了变量5 的信息,这也和之前的相关系数矩阵相对应,这里我们进行主
成分分析,为了让两个因子能够有更好的代表性,进行进一步的因子正交旋转,
即使因子的方差最大化。
代码如下:
proc factor data=saswork.sas n=2 rotate=varimax score out=scoreout;
var x1-x5;
run;
因子旋转结果如下:
分析:因子1 在生产总值、财政收入、固定资产投资、外贸进出口总额中有着较
大的载荷,说明因子1 重点解释整体发展带来的宏观经济增长,而因子2 重点解
释由于个人可支配收入引起的微观的经济增长。根据旋
原创力文档


文档评论(0)