2016回归分析.ppt

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Logistic回归分析 汕大医学院预防医学教研室 Logistic regression:是研究分类变量统计分析的一种重要方法。研究两水平或多水平反应变量与其影响因子间关系的回归分析(线性回归分析: 应变量为连续计量资料)。 如二项分类,如某种疾病的患病与否某一治疗结果有效和无效器官移植后生存或死亡 多项有序分类:某一治疗结果,治愈、显效、有效、无效; 多项无序分类:肝炎分型 甲、乙、丙、丁、戊研究分类反应变量与多个影响因素之间的相互关系的一种多变量分析方法,进行疾病的病因分析。Logistic回归的分类 Logistic回归 二分类 有序反应变量多分类无序反应变量 非条件1:1配对资料 条件Logistic回归1:m配对资料m:n配对资料Logistic回归模型是一种概率模型, 通常以疾病,死亡等结果发生的概率为因变量, 影响疾病发生的因素为自变量建立回归模型。 例:为了探讨糖尿病与血压、血脂等因素的关系,研究者对56例糖尿病病人和65例对照者进行病例?对照研究,收集了性别、年龄、学历、体重指数、家族史、吸烟、血压、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白11个因素的资料,各因素的观察结果见表 二分类反应变量Y= 1 出现阳性结果0 出现阴性结果 对反应变量有影响的因素有n个,称为自变量X1,X2,….Xn 在n个自变量作用下出现阳性结果的条件概率为P=P(Y=1 (X1,X2,….Xn) 一、Logistic回归方程   Logistic回归的logit模型(1)取值问题 (2)曲线关联 反应变量与自变量的关系通常不是直线关系,而是S型曲线。曲线回归时,往往采用变量变化,使得曲线直线化,再进行直线回归方程的拟合。能否考虑对所预测的因变量加以变换。1970年,COX引入了用于人口学领域的Logit变换。 什么叫Logit变换?通常把出现某种结果的概率与不出现的概率之比称为比值 Odds=P/1-P,将其纳入对数?=Ln(P/1-P) 概率P是以0.5为对称点,分布在0~1的范围内的,而相应的Logit(P)的大小为 P=0Logit(P)=Ln(0/1)=-无穷大 P=0.5 Logit(P)=Ln(0.5/0.5)=0 P=1Logit(P)=Ln(1/0)=+无穷大 Logit(P )取值范围扩展为(-?,+ -?) Logit变换 也称对数单位转换logit P= 二、参数估计 建立Logistic回归方程就是求?和?i ?意义 常数项是当各种暴露因素为0时,个体发病与不发病概率之比的自然对数值。 ?i意义 偏回归系数表示在其它自变量固定的条件下, 第n个自变量每改变一个单位时logit的改变量。它与比数比(优势比)(odds ratio)有对应关系。  最大似然法的基本思想是先建立似然函数与对数似然函数,再通过使对数似然函数最大求解相应的参数值(使得一次抽样中获得现有样本的概率为最大),所得到的估计值称为参数的最大似然估计值。三、参数检验 似然比检验(likehood ratio test)通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G (又称Deviance)。 G=-2(ln Lp-ln Lk)样本量较大时, G近似服从自由度为待检验因素个数的?2分布。 比分检验(score test)以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S 。样本量较大时, S近似服从自由度为待检验因素个数的?2分布。 Wald检验( wald test)即广义的t检验,统计量为uu服从正态分布,即为标准正态离差。   Logistic回归系数的区间估计上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。 四、回归系数的意义单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即bi表示xi改变一个单位时, logit P的平均变化量。 流行病学中的一些基本概念: 相对危险度(relative risk): RR=P1/P2 比数Odds=P/(1-P) 比数比   OR=[P1/(1-P1)]/[P2/(1-P2)] 在患病率较小情况下,OR≈RR  设P表示暴露因素X时个体发病的概率,则发病的概率P与未发病的概率1-P 之比为优势(odds), logit P就是odds的对数值。 优势比 常把出现某种结果的概率与不出现的概率之比称为比值(odds),即odds=p/1-p。两个比

文档评论(0)

dsdmlwz1v9 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档