R语言及回归分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
R语言与回归分析 回归模型是计量里最基础也最常见的模型之一。究其原因,我想是因为在实际问题中我们并不知道总体分布如何,而且只有一组数据,那么试着对数据作回归分析将会是一个不错的选择。 一、简单线性回归 ? ? ?简单的线性回归涉及到两个变量:一个是解释变量,通常称为x;另一个是被解释变量,通常称为y。回归会用常见的最小二乘算法拟合线性模型: yi = β0 + β1xi +εi 其中β0和β1是回归系数,εi表示误差。 在R中,你可以通过函数lm()去计算他。Lm()用法如下: lm(formula, data, subset, weights, na.action, ??method = qr, model = TRUE, x = FALSE, y = FALSE, qr = TRUE, ??singular.ok = TRUE, contrasts = NULL, offset, ...) ? ? ? ? 参数是formula模型公式,例如y ~ x。公式中波浪号(~)左侧的是响应变量,右侧是预测变量。函数会估计回归系数β0和β1,分别以截距(intercept)和x的系数表示。 ? ? ? 有三种方式可以实现最小二乘法的简单线性回归,假设数据wage1(可以通过names函数查看数据框各项名称) (1)lm(wage1$wage ~ wage1$educ + wage1$exper) (2)lm (wage ~ educ + exper, data= wage1) (3)attach(wage1) ??? lm(wage~educ+exper)#不要忘记处理完后用detach()解出关联 ? ? ? ? ?我们以数据wage1为例,可以看到工资与教育水平的线性关系: 运行下列代码: library(foreign) A-read.dta(D:/R/data/WAGE1.dta)#导入数据 lm(wage~educ,data=A) lm(wage~educ,data=A) Call: lm(formula = wage~ educ, data = A) Coefficients: (Intercept)???????? educ? -0.9049??????0.5414 ? ? ? ? ? ?当然得到这些数据是不够的,我们必须要有足够的证据去证明我们所做的回归的合理性。那么如何获取回归的信息呢? ? ? ? ? ? 尝试运行以下代码: result-lm(wage~educ,data=A) summary(result) 我们可以得到以下结果: Call: lm(formula = wage~ educ, data = A) Residuals: ??? Min?????1Q? ???Median?????3Q???? Max -5.3396 ??-2.1501 ???-0.9674 ????1.1921 ???16.6085 Coefficients: ??????????? Estimate? ?Std.Error ???t value ?Pr(|t|)??? (Intercept) ??-0.90485???0.68497? ?-1.321???0.187??? educ???????? 0.54136??? 0.05325?10.167?? 2e-16 *** --- Signif.codes:? 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05‘.’ 0.1 ‘ ’ 1 Residual standarderror: 3.378 on 524 degrees of freedom MultipleR-squared: 0.1648,???? AdjustedR-squared: 0.1632 F-statistic: 103.4on 1 and 524 DF,? ?p-value: 2.2e-16 ? ? ? ? ? ? ? 解读上述结果,我们不难看出,单从判决系数R-squared上看,回归结果是不理想的,但是,从p值来看,我们还是可以得到回归系数是很显著地(注意,这里的P0.05就可以认为拒绝回归系数为0,即回归变量与被解释变量无关的原择假设,选择备择假设)所以说我们的回归的效果不好但还是可以接受的。当然,这一点也可以通过做散点图给我们直观的印象: ? ? ? ? ? ? ?但是影响薪酬的因素不只是education,可能还有其他的,比如工作经验,工作任期。为了更好地解释影响薪酬的因素,我们就必须用到多元线性回归。 二、多元线性回归 ? ? ? ? ? ? ? ?还是使用lm函数。在公式的右侧指定多个预测变量,用加号(+)连接: lm(y ~ u + v+ w) ? ? ? ? ? ?

文档评论(0)

kehan123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档