logis解读.pptVIP

  • 8
  • 0
  • 约2.49千字
  • 约 29页
  • 2016-12-19 发布于贵州
  • 举报
Logistic回归分析 公共卫生学院 一、前言 应变量为分类指标的资料 线性回归分析: 应变量为连续计量资料 二、 Logistic回归模型 Logistic回归的分类 二分类 多分类 条件Logistic回归 非条件Logistic回归 Logit变换 也称对数单位转换 logit P= 流行病学概念:  设P表示暴露因素X时个体发病的概率,则发病的概率P与未发病的概率1-P 之比为优势(odds), logit P就是odds的对数值。 Logistic回归模型   Logistic回归的logit模型  Logistic回归模型 三、参数估计 最大似然估计法 (Maximum likehood estimate)  似然函数:L=∏Pi 对数似然函数: lnL=∑(ln P)=ln P1+ln P2+…+ln Pn 非线性迭代方法——   Newton-Raphson法 四、参数检验 似然比检验(likehood ratio test)   通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G (又称Deviance)。 G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度为待检验因素个数的?2分布。 比分检验(score test)   以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S 。样本量较大时, S近似服从自由度为待检验因素个数的?2分布。 Wald检验( wald test)   即广义的t检验,统计量为u   u服从正态分布,即为标准正态离差。   Logistic回归系数的区间估计   上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。 五、回归系数的意义 单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即bi表示xi改变一个单位时, logit P的平均变化量。 流行病学中的一些基本概念: 相对危险度(relative risk): RR=P1/P2 比数            Odds=P/(1-P) 比数比   OR=[P1/(1-P1)]/[P2/(1-P2)] 在患病率较小情况下,OR≈RR Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。 Logistic回归中的回归系数( bi )表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。 Logistic回归系数的意义 分析因素xi为二分类变量时,存在(暴露)xi =1,不存在(未暴露)xi =0,则Logistic回归中xi的系数bi就是暴露与非暴露优势比的对数值.即OR=exp(bi)=e (bi) 分析因素xi为多分类变量时,为方便起见,常用1,2,…,k分别表示k个不同的类别。进行Logistic回归分析前需将该变量转换成k-1个指示变量或哑变量(design/dummy variable),这样指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系数,其解释同前。 分析因素xi为等级变量时,如果每个等级的作用相同,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,…。此时, e(bi) 表示xi增加一个等级时的优势比, e(k* bi)表示xi增加k个等级时的优势比。如果每个等级的作用不相同,则应按多分类资料处理。 分析因素xi为连续性变量时, e(bi)表示xi增加一个计量单位时的优势比。 多因素Logistic回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时, Logistic回归系数的解释变得更为复杂,应特别小心。 根据Wald检验,可知Logistic回归系数bi服从u分布。因此其可信区间为 进而,优势比e(bi)的可信区间为 六、 Logistic回归分析方法 基本思想同线性回归分析。 从所用的方法看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的F统计量,而是以上介绍的参数检验方法中的三种统计量之

文档评论(0)

1亿VIP精品文档

相关文档