第八章 logistic回归0课题.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
logistic回归分析及定序回归分析 表1 吸烟、饮酒与食管癌关系的病例对照调查资料 分类资料的影响因素分析方法 如果采用线性回归分析,因变量不满足条件,预测值会超出0和1的范围。 如果采用单变量的?2检验,则必然忽略其他自变量对应变量的影响。 如果采用Mantel-Haenszel分层分析,需要较大的样本量,而且自变量不能太多。 logistic回归能较好地解决上述问题。 Logistic回归分析的分类 按数据的类型: 非条件logistic回归分析(成组数据) 条件logistic回归分析(配对-对照数据) 按因变量取值个数: 二分类logistic回归分析 多分类logistic回归分析 logistic回归模型 因变量Y是一个二值变量,取值为 自变量X1,X2,……,Xm。 P表示在m个自变量作用下事件发生的概率。 logistic回归模型 logistic回归模型 logit变换 事件发生概率与未发生概率之比的自然对数,称为P的logit变换,记作logit(P)。 概率P的取值范围在0~1之间,而logit(P)取值是没有界限的。 logit变换 回归模型中参数的意义 ?0(常数项):所有影响因素均为 0 时(记作X=0),个体发生事件概率与不发生事件的概率之比的自然对数值。 ?j 的含义:某因素因素 Xj 改变一个单位时,个体发生事件概率与不发生事件的概率之比的自然对数变化值。 优势比(odds ratio,OR) 优势(odds)是指某影响因素控制在某种水平时,事件发生率与事件不发生率的比值,即P/(1-P)。 某影响因素的两个不同水平的优势的比值称为优势比,如某影响因素的一个水平为c1,另一个水平为c0,则这两个水平的优势比为: 优势比(odds ratio,OR) OR表示影响因素对事件发生的影响方向和影响能力大小。 OR1表示该因素取值越大,事件发生的概率越大,又称危险因素。 OR1表示该因素取值越大,事件发生的概率越小,又称保护因素。 OR=1表示该因素与事件的发生无关。 优势比(odds ratio,OR) 优势比(odds ratio,OR) OR与? 的关系 ? = 0,OR = 1,影响因素与事件的发生无关。 ? 0,OR 1,影响因素的取值越大,事件的发生的概率越大。 ? 0,OR 1,影响因素的取值越大,事件的发生的概率越小。 logistic回归模型的参数估计 通常采用最大似然估计(maximum likeli-hood estimate,MLE)估计回归系数?,同时得到回归系数的标准误Sb。 根据最大似然原理,在一次抽样中获得现有样本的概率应该最大。即似然函数取值最大。 计算可以通过统计软件来完成。 logistic回归模型的参数估计 根据计算所得的bj计算OR值。 OR值的可信区间:可以利用bj的抽样分布来估计,在样本含量较大的情况下,近似服从正态分布。当自变量只有两个水平时,可采用下列公式计算。 Spss分析步骤: 结果解释 上表是关于模型拟合度的检验。最大似然平方的对数值(-2对数似然=1159.422)用于检验模型的整体性拟合效果,该值在理论上服从卡方分布,上面给出的卡方临界值5.991,因此,最大似然对数值检验通过。这用CoxSnell R方和Negelkerke R方代替了线性回归中的R方,他们的值越接近1,说明拟合度越好,它们分别为0.074和0.099,单纯看这一点,似乎模型的拟合度不好,但是该参数主要是用于模型之间的对比。 似然比函数的自然对数值对样品数目很敏感,作为补充和参照,需要Hosmer-Lemeshow 检验。 该检验依然以卡方分布为标准,但检验的方向与常似然比检验不同:要求其卡方值低于临界值而不是高于临界值。作为Hosmer-Lemeshow检验的卡方值3.4225.5991,检验通过。后面的Sig.值0.181大于0.05,据此也可以判知Hosmer-Lemeshow 检验可以通过。 计算结果表明,相应于“是否癌症=1”,期望值逐渐减少,与观测值趋于接近;相应于“是否癌症=0”,期望值与观测值也趋于接近。这种结果是比较理想的,否则,模型的Hosmer-Lemeshow 检验就不太理想,从而模型的整体拟合效果不是很好。 经过迭代运算,模型参数逐渐收敛到稳定值,于是得到最终模型参数。利用最终的logistic 模型,可以对因变量进行预测,预测结果分类列入下表。可以看出,观测值否有451个(是否癌症=0),相应的预测值有300个,预测正确率为300/451*100%=66.5%;观测值是有435个,相应的预测值有265个,预测正确率为265/435*100%=60.9%。总的预测正确率为63.8%,模型效果一般。 上表饮酒与吸烟均通过了显著性检

文档评论(0)

yy556911 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档