r语言学习系列32-回归分析.docxVIP

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
回归分析 回归分析是研究一个或多个变量(因变量)与另一些变量(自变量)之间关系的统计方法。 主要思想是用最小二乘法原理拟合因变量与自变量间的最佳回归模型(得到确定的表达式关系) 。其作用是对因变量做解释、控制、或预测。 回归与拟合的区别: 拟合侧重于调整曲线的参数, 使得与数据相符; 而回归重在研究两个变量或多个变量之间的关系。 它可以用拟合的手法来研究两个变量的关系,以及出现的误差。 回归分析的步骤: 1)获取自变量和因变量的观测值; 2)绘制散点图,并对异常数据做修正; 3)写出带未知参数的回归方程; 4)确定回归方程中参数值; 5)假设检验,判断回归方程的拟合优度; 6)进行解释、控制、或预测。 (一)一元线性回归 一、原理概述 一元线性回归模型: Y= ??0+??1X+ε 其中 X 是自变量, Y 是因变量, ?? 是待求的未知参数, ??也称为 0,??1 0 截距; ε是随机误差项,也称为残差,通常要求 ε满足: ① ε的均值为 0; ② ε的方差为 2; ?? ③ 协方差 COV(εi, jε)=0,当 i ≠j时。即对所有的 i ≠ j,i 与εεj 互不 相关。 用最小二乘法原理 ,得到最佳拟合效果的 ?0 , ?1 值: n ( xi x )( yi y ) ? i 1 , ? y ? 1 n 0 1 x ( xi x )2 i 1 模型检验 拟合优度检验 计算 R2,反映了自变量所能解释的方差占总方差的百分比,值越大 说明模型拟合效果越好。 通常可以认为当 R2 大于 0.9 时,所得到的回 归直线拟合得较好, 而当 R2 小于 0.5 时,所得到的回归直线很难说明变量之间的依赖关系。 回归方程参数的检验 回归方程反应了因变量 Y 随自变量 X 变化而变化的规律,若??1=0, 则 Y 不随 X 变化,此时回归方程无意义。 所以,要做如下假设检验: H0: ??1=0, H1: ??1≠0; F 检验 若??1=0 为真,则回归平方和 RSS 与残差平方和 ESS/(N-2)都是 2 ??的无偏估计,因而采用 F 统计量: 来检验原假设 β1=0 是否为真。 ② T 检验 对 H0: ??1=0 的 T 检验与 F 检验是等价的( t2=F)。 用回归方程做预测 得到回归方程 ? ? ? 后,预测 X=x 0 处的 Y 值 ? ? ? Y 0 1 X y0 0 1 x0 . y?0 的预测区间为: 其中 tα/2 的自由度为 N-2. 二、 R 语言实现 使用 lm() 函数实现,基本格式为: lm(formula, data, subset, weights, na.action, method=qr, ...) 其中,formula 为要拟合的回归模型的形式, 一元线性回归的格式为: y~x,y 表示因变量, x 表示自变量,若不想包含截距项, 使用 y~x-1; data 为数据框或列表; subset选取部分子集; weights 取 NULL 时表示最小二乘法拟合,若取值为权重向量, 则用加权最小二乘法; na.action 设定是否忽略缺失值; method 指定拟合的方法, 目前只支持 “qr”(QR 分解),method= “model.frame”返回模型框架。 三、实例 例 1 现有埃及卡拉马村庄每月记录儿童身高的数据,做一元线 性回归。 datas-data.frame(age=18:29,height=c(76.1,77,78.1,78.2, 78.8,79.7,79.9,81.1,81.2,81.8,82.8,83.5)) datas age height 1 18 76.1 2 19 77.0 3 20 78.1 4 21 78.2 5 22 78.8 6 23 79.7 7 24 79.9 8 25 81.1 9 26 81.2 10 27 81.8 11 28 82.8 12 29 83.5 plot(datas) #绘制散点图 res.reg-lm(height~age,datas) #做一元线性回归 summary(res.reg) #输出模型的汇总结果 Residuals: Min 1Q Median 3Q Max -0.27238 -0.24248 -0.02762 0.16014 0.47238 Coefficients: Estimate Std.Error t value Pr(|t|) (Intercept) 64.9283 0.5084 127.71 2e-16 *** age 0.6350 0.0214 29.66 4.43e-11 *** --- Signif.codes: 0 ‘ *** ’ 0.001 ‘ ** ’

文档评论(0)

zsmfjy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档