- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文档全是精心选出来的精品资料,绝对值得下载!
一.问题描述
1.设定问题与收集数据
影响一个地区人均消费水平的因素有很多,例如,一个地区的GDP,该地区人均可支配收入,该地区的教育水平,以及地区人口增长变化情况等,下面我们选取6个解释变量研究地区人均消费水平,解释变量分别为:x1四川地区生产总值,x2人口自然增长率,x3高等学校在校学生数,x4农林牧渔业总产值,x5卫生机构人员数,x6人均可支配收入。选取了2014年《四川省统计年鉴》中1990年到2013年的历年数据,以四川地区人均消费水平为因变量,以如上6个自变量作多元线性回归。数据如下
阐述理论
由经济理论知,地区GDP,地区人均可支配收入,高等学校在校学生数(代表教育水平),农林牧渔业总产值(代表基础消费品供应水平),卫生机构人员数(医疗水平),以及人口自然增长率(人口变化水平)是影响各省GDP的主要因素。通常情况下,除了人口自然增长率以外的其余5个解释变量与人均消费水平呈正相关关系,而人口自然增长率则呈负相关关系。在这里,将人均消费水平作为被解释变量,其余6个变量作为解释变量,建立x1,x2,...,x6与y的多元线性回归模型。
二 处理数据
多元回归分析
(1)画散点图
setwd(D:/R-3.2.3/data)
mydata-read.csv(book2.csv,header = T)
plot(mydata)
由上图,可以看到y与除X2以外的其余解释变量呈正相关,与X2呈负相关,与我们的分析一致,还可以看到,解释变量本身存在相关性,可能存在多重多线性。
(2)将数据标准化与求其相关系数
mydata_scale-scale(mydata)
mydata_scale_cor-cor(mydata_scale)
hist(mydata_scale_cor,xlab = cor)
由相关系数的频率直方图可知,大部分相关系数在0.9~1之间,相关性很强,作回归分析较为合理。
得到线性拟合模型
mydata_scale-as.data.frame(mydata_scale)
tlm-lm(y~x1+x2+x3+x4+x5+x6,data=mydata_scale)
summary(tlm)
得到:
由上表看到,F值=3633,P值=2.2*10^16,说明回归方程整体显著,但是x2,x4,x5,x6未通过T检验,并且系数不是整体显著,故应当得继续优化该模型。
(4)逐步回归
tstep-step(tlm) #逐步回归
通过逐步回归法,剔除x6,x4两个变量,得到最优模型
summary(tstep):
drop1(tstep)
tlm-lm(y~x1+x2+x3+x5,data=mydata_scale)
summary(tlm)
可以看到,剩余的x1,x2,x3,x5都通过了T检验。P值最大的为x2=0.0321,但也满足小于0.05,所以都是高度显著,回归方程即:
y=4.231e-18+9.196e-01*x1-6.044e-02*x6-1.912e-01*x3+2.183e-01*x5
多重共线性
library(car)
vif(tlm) #多重共线性
mean(vif(tlm))
由上表看到,解释变量的VIF值的均值为359.912,远大于10,说明存在较强的多重共线性,其中x1,x2,x3,x4,x5,x6的VIF值都大于10,x6=884.33035为最大。
下面逐一剔除VIF值大于10的解释变量,从最大的x6开始剔除,直到剩余所有解释变量的VIF值小于10即可得到最终回归模型。
tlm-lm(y~x1+x2+x3+x4+x5,data=mydata_scale) #剔除x6
vif(tlm)
由上表看到,VIF值大于10的为x1,x2,x3.x4,x5,其中x5最大,故剔除x5。
tlm-lm(y~x1+x2+x3+x4,data=mydata_scale) #剔除x5
vif(tlm)
由上表看到,VIF值大于10的解释变量为x1,x3,x4,其中x4最大,故剔除x4。
tlm-lm(y~x1+x2+x3,data=mydata_scale) #剔除x4
vif(tlm)
由上表看到,VIF值大于10的解释变量为x3,故剔除x4。
由上表看到,所有解释变量都小于10,说明此模型不存在强多重共线性,可以作为最终回归模型。
tlm-lm(y~x1+x2,data=mydata_scale)
summary(tlm)
由上表看到,所有的解释变量都小于10,R方=0.9983,F值=6200。
最后得到的最终回归模型为:
Y=-3.869e-17+9.662e-01*x1-4.5e-02*x2
主成分分析:
mydata.pr-princomp(mydat
原创力文档


文档评论(0)