sas数据挖掘及应用实验报告.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SAS 数据挖掘与应用 实验报告 陕西省各地市经济发展水平评价研究 实验要求: 1. 选择经济领域中的一个问题,确定相关的分析变量,描述通过数据挖掘来探究 (或解释、或解决)问题的逻辑思路,说明预期的结果(结论)等。 2. 查询和搜集相关原始数据 3. 整理、准备数据,建立数据集 4. 采用二种或二种以上的挖掘方法,或进行对比分析,或先后进行多个阶段的分 析。 5. 对挖掘结果进行分析和说明。 6. 总结研究结论或结果。 实验目的: 1. 熟悉SAS 软件操作 2. 练习SAS 编程 3. 学习并练习描述性统计分析、因子分析等方法与实际操作 4. 研究实际问题 问题描述: 陕西省各市的经济发展一直受到陕西人民的关注,而对于2014 年如何分析各市 的发展情况,一直是一个仁者见仁的问题,指标体系的建立以及研究方法的选择 多种多样,本文以各市2014 年各市的重要经济发展指标出发,对 11 个地市的 经济发展进行评价 解决思路: 为了研究上述问题,我们应当以2014 年的各地市相关经济发展指标为数据源, 通过描述性统计分析对整体数据进行初步了解;并利用主成分分析对2014 年各 地市的经济发展进行一个综合评价和排序。 1. 描述性分析 2. 主成分分析 实验过程: 1.搜集数据 通过陕西省统计局网站搜寻到 2014 年各地市经济发展的指标并汇总,选择 其中的五个指标(生产总值、财政收入、固定资产投资、外贸进出口总额、 人均可支配收入),得到如下数据: 2.数据准备和预处理 首先建立数据集,我将数据存在D:\saswork.sas 中 为便于进行分析,将生产总值、财政收入、固定资产投资、外贸进出口、人 均可支配收入均用X1 -X5 代替。 3.描述性统计分析 ①单变量分析: 首先要对数据的基本情况有一个初步的了解,因此先进行单变量分析。再次我们 利用means 过程计算一些描述性统计量,编写程序如下: proc means data=saswork.sas maxdec=2 mean std max min range cv skewness; var x1-x5; run; 运行结果如下: 分析: 陕西省各市生产总值平均水平约为1613 亿元,从标准差看来,无论是哪个指标 都有着较大的差异,而且变异系数除了X5 (人均收入)外其他都有着较高的值, 这也说明了各地市的经济发展水平不同,而且在最大值的选择中,西安市的值正 好与最大值相对应,说明西安市的经济发展处于绝对优势地位,但仅仅如此并不 能反映出更多的信息,因此进行接下来的进一步统计指标计算和分析。 ②相关系数分析和P 值检验 代码如下: proc corr data=saswork.sas; var x1-x5; run; 运行后得到相关系数矩阵: 从相关系数矩阵看到,除了人均可支配收入外,其他四个变量之间都有着较强的 相关性,且P 检验值明显较小,因此可以通过降维来进行进一步数据处理。 4.主成分分析 在本次降维过程中,我们选择提取至85%以上的信息即可,编写代码如下: proc factor data=saswork.sas; var x1-x5; run; 运行结果部分如下: 以上为因子分析的结果,第一列为特征根,三四列为方差贡献率以及累积方差贡 献率,可以看出,前两个因子的累积方差贡献率就可以提供93%以上的信息,因 此选择因子1 和2,运行如下程序,输出两个因子: proc factor data=saswork.sas n=2; var x1-x5; run; 结果如下: 分析:这里给出了因子的载荷矩阵,因子1 包含了变量1-4 的主要信息,而因子 2 则包含了变量5 的信息,这也和之前的相关系数矩阵相对应,这里我们进行主 成分分析,为了让两个因子能够有更好的代表性,进行进一步的因子正交旋转, 即使因子的方差最大化。 代码如下: proc factor data=saswork.sas n=2 rotate=varimax score out=scoreout; var x1-x5; run; 因子旋转结果如下: 分析:因子1 在生产总值、财政收入、固定资产投资、外贸进出口总额中有着较 大的载荷,说明因子1 重点解释整体发展带来的宏观经济增长,而因子2 重点解 释由于个人可支配收入引起的微观的经济增长。根据旋

文档评论(0)

东方888 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档