第八章 logistic回归0课题.pptVIP

下载本文档

70
0
约7.1千字
约 90页
2016-12-13 发布于湖北
举报
版权申诉

第八章 logistic回归0课题.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

logistic回归分析及定序回归分析表1 吸烟、饮酒与食管癌关系的病例对照调查资料分类资料的影响因素分析方法如果采用线性回归分析，因变量不满足条件，预测值会超出0和1的范围。如果采用单变量的?2检验，则必然忽略其他自变量对应变量的影响。如果采用Mantel-Haenszel分层分析，需要较大的样本量，而且自变量不能太多。 logistic回归能较好地解决上述问题。 Logistic回归分析的分类按数据的类型：非条件logistic回归分析（成组数据）条件logistic回归分析（配对-对照数据）按因变量取值个数：二分类logistic回归分析多分类logistic回归分析 logistic回归模型因变量Y是一个二值变量，取值为自变量X1，X2，……，Xm。 P表示在m个自变量作用下事件发生的概率。 logistic回归模型 logistic回归模型 logit变换事件发生概率与未发生概率之比的自然对数，称为P的logit变换，记作logit(P)。概率P的取值范围在0～1之间，而logit(P)取值是没有界限的。 logit变换回归模型中参数的意义 ?0（常数项）：所有影响因素均为 0 时（记作X=0），个体发生事件概率与不发生事件的概率之比的自然对数值。 ?j 的含义：某因素因素 Xj 改变一个单位时，个体发生事件概率与不发生事件的概率之比的自然对数变化值。优势比（odds ratio，OR）优势（odds）是指某影响因素控制在某种水平时，事件发生率与事件不发生率的比值，即P/(1-P)。某影响因素的两个不同水平的优势的比值称为优势比，如某影响因素的一个水平为c1，另一个水平为c0，则这两个水平的优势比为：优势比（odds ratio，OR） OR表示影响因素对事件发生的影响方向和影响能力大小。 OR1表示该因素取值越大，事件发生的概率越大，又称危险因素。 OR1表示该因素取值越大，事件发生的概率越小，又称保护因素。 OR=1表示该因素与事件的发生无关。优势比（odds ratio，OR）优势比（odds ratio，OR） OR与? 的关系 ? = 0，OR = 1，影响因素与事件的发生无关。 ? 0，OR 1，影响因素的取值越大，事件的发生的概率越大。 ? 0，OR 1，影响因素的取值越大，事件的发生的概率越小。 logistic回归模型的参数估计通常采用最大似然估计（maximum likeli-hood estimate，MLE）估计回归系数?，同时得到回归系数的标准误Sb。根据最大似然原理，在一次抽样中获得现有样本的概率应该最大。即似然函数取值最大。计算可以通过统计软件来完成。 logistic回归模型的参数估计根据计算所得的bj计算OR值。 OR值的可信区间：可以利用bj的抽样分布来估计，在样本含量较大的情况下，近似服从正态分布。当自变量只有两个水平时，可采用下列公式计算。 Spss分析步骤：结果解释上表是关于模型拟合度的检验。最大似然平方的对数值（-2对数似然=1159.422）用于检验模型的整体性拟合效果，该值在理论上服从卡方分布，上面给出的卡方临界值5.991，因此，最大似然对数值检验通过。这用CoxSnell R方和Negelkerke R方代替了线性回归中的R方，他们的值越接近1，说明拟合度越好，它们分别为0.074和0.099，单纯看这一点，似乎模型的拟合度不好，但是该参数主要是用于模型之间的对比。似然比函数的自然对数值对样品数目很敏感，作为补充和参照，需要Hosmer-Lemeshow 检验。该检验依然以卡方分布为标准，但检验的方向与常似然比检验不同：要求其卡方值低于临界值而不是高于临界值。作为Hosmer-Lemeshow检验的卡方值3.4225.5991，检验通过。后面的Sig.值0.181大于0.05，据此也可以判知Hosmer-Lemeshow 检验可以通过。计算结果表明，相应于“是否癌症=1”，期望值逐渐减少，与观测值趋于接近；相应于“是否癌症=0”，期望值与观测值也趋于接近。这种结果是比较理想的，否则，模型的Hosmer-Lemeshow 检验就不太理想，从而模型的整体拟合效果不是很好。经过迭代运算，模型参数逐渐收敛到稳定值，于是得到最终模型参数。利用最终的logistic 模型，可以对因变量进行预测，预测结果分类列入下表。可以看出，观测值否有451个（是否癌症=0），相应的预测值有300个，预测正确率为300/451*100%=66.5%；观测值是有435个，相应的预测值有265个，预测正确率为265/435*100%=60.9%。总的预测正确率为63.8%，模型效果一般。上表饮酒与吸烟均通过了显著性检