基于r软件的logistic回归实证分析.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于R软件的Logistic回归实证分析 应用统计 章程 1220120484 摘要:Logisic回归模型是研究响应变量为非连续变量时的一种重要分析方法,但它的计算依赖于统计软件。本文通过实证对使用R软件处理Logistic模型做出简要分析。 引言:线性回归模型是定量分析和数据挖掘中最常用的统计分析方法之一,但线性回归分析一般要求响应变量是连续变量、数据分布为正态分布等条件。在实际分析研究中,经常遇到的是非连续的响应变量,即分类响应变量,如经济学研究中所涉及的是否购买某种商品、流行病学中研究的某些条件下是否会患病等。在研究二分变量与诸多自变量之间的相互关系时,通常选用Logistic回归模型。 1、Logistic回归 Logistic模型是由比利时生物学家Verhulst于1838年提出,最早是为了研究人口问题而对Malthus方程做出的改进,起初并没有引起重视,后来美国人口学家Pear在研究美国人口问题时再次提出这个方程才使其开始流行,故现代文献中常称之为Verhulst-pearl阻碍方程。该模型之所以称为Logistic模型,是因为其有某种推理的含义。 一般的Logistic模型形式如下: 对上式做logit变换,Logistic回归模型可以写成: 由于Logistic回归模型涉及较复杂的数学理论,数据统计分析的计算往往较为复杂,一般无法用手工计算,只能在计算机上实现。在统计软件方面,常用的有SAS、SPSS、S-PLUS等,但这些软件大多是商业性的,需要支付昂贵的购买费用。而R软件是一款免费的统计软件,它提供了有弹性的、互动的环境来分析、展示数据,且提供若干统计程序包以及一些集成统计计算工具和函数,使得用户可以灵活机动地进行数据分析,简化了数据分析过程。它可以完成大多数模型的统计计算,并帮助用户分析计算结果。本文将结合实例,展示如何在R软件中实现对Logistic模型的统计分析。 2、Logistic模型的拟合 回归模型的拟合主要是求模型中的参数估计值,Logistic模型的参数估计通常采用极大似然法(maximum likelihood,ML)。极大似然法的基本思想是先建立似然函数与对数似然函数,再通过使对数似然函数最大来求解相应的参数值,所得到的估计值称为参数的极大似然估计值。极大似然估计具有一致性、有效性和正态性等很好的统计性质,样本数据越大时,其估计值就越精确。 鉴于Logistic模型时基于二项分布族的广义线性模型,因此在R软件中可通过glm语句建立回归关系,再用summary语句得到其详细结果。在得到模型拟合结果后,还可用influence.measures语句进行影响分析,通过该语句直接得到像cook距离、帽子矩阵对角元值等基本量。再通过函数运算可得到其他统计量,进而进行诊断分析。 3、案例分析: 资料为50位急性白血病人是否存活Y、入院后取得的淋巴浸润等级X1、以及出院后有无巩固治疗X2。根据该数据,用R软件拟合Logistic模型,具体结果如下: x1-c(0,2,2,2,2,0,0,2,2,0,2,0,0,0,0,0,0,0,0,2,0,0,0,0,0,2,0,0,0,0,0,2,0,2,0,0,2,0,2,0,0,0,2,0,0,2,0,0,0,0) x2-c(0,0,0,0,0,0,1,0,0,0,1,0,0,0,1,0,1,1,1,1,1,0,1,1,1,0,0,0,0,0,0,0,1,0,1,1,1,0,1,0,0,1,1,1,1,1,1,1,1,1) y-c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1) life-data.frame(x1,x2,y) log-glm(y~x1+x2,family=binomial,data=life) summary(log) 输出的结果为: Call: glm(formula = y ~ x1 + x2, family = binomial, data = life) Deviance Residuals: Min 1Q Median 3Q Max -1.6849 -0.5950 -0.3033 0.7442 1.9073 Coefficients: Estimate Std. Error z value Pr(|z|) (Intercept) -1.6419 0.6381 -2.573 0.010082 * x1 -0.7070 0.4282 -1.651 0.098750 . x2 2.7844 0.7797 3.571 0.000355 *** --- Sign

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档