- 73
- 0
- 约3.04千字
- 约 35页
- 2016-08-11 发布于重庆
- 举报
第九章Logistic回归
第九章 Logistic回归 (非条件Logistic回归) 第一节 Logistic回归概述 一、Logistic回归目的: Logistic回归通常以离散型的分类变量(疾病的死亡、痊愈等)发生结果的概率为因变量,以影响疾病发生和预后的因素为自变量建立模型。研究分类变量(因变量)与影响因素(自变量)之间关系的研究方法。属于概率型非线性回归方法。 因变量是分类变量(二分类、多分类)发生结果的概率。作出多个自变量(危险因素)估计应变量(非连续变量Y,是发生结果的概率)的回归方程。研究某现象发生与因素间关系也可以用X检验,但有局限性,仅能研究一个因素,且为定性结论。 二、与多重线性回归区别。 多重线性回归:自变量和因变量是连续变量;资料 符合正态性、线性等条件要求;主要用于研究一个因 变量与多个自变量之间依存关系。 Logistic回归:主要用于筛选疾病的危险因素,作 病因分析;控制和校正混杂因素的影响;其因变量是 分类变量,自变量可以是分类变量,也可以是连续变 量;自变量X与因变量Y之间无线性关系;属于概率型 非线性回归方法。 三、 Logistic回归的分类 Logistic回归主要分为:二分类和多分类两种。 非条件Logistic回归,适用于成组设计、且因变量为二分类变量的资料; 条件Logistic回归,适用于配对设计、且因变量为二分类变量的资料; 多分类Logistic回归,适用于因变量为多分类变量的资料,分为有序和无序多分类Logistic回归分析两种。(结果为痊愈、显效、有效、无效/不同肝炎类型甲、乙、丙、丁、戊型的危险因素研究) 第二节 非条件Logistic回归分析 一、Logistic回归模型: 设Y为2分类变量的反应变量,结果有两种:Y=1表示某事件发生; Y=0表示某事件不发生。 x为自变量可以是连续变量或分类变量。 根据大量观察,反应变量阳性结果的概率P与 自变量X的关系通常不是直线关系,而是曲线关系。 Logistic回归模型 此形式为概率预测模型,给定自变量的取值时,可估计概率。其中,P为概率;β0为常数项;β1、2、m为偏回归系数。Exp为指数函数。(曲线关系) 二、回归方程(线性函数表达式 ) 反应变量阳性结果的概率P与自变量X的关系通常不是直线关系,呈曲线关系;而自变量X与P和(1-P)比值的对数呈线性关系,因此Logistic回归模型P与X线性函数表达式为: logit(P)= ln( ) = β0+β1χ1 + … +βm χm P为事件发生的概率,1-P为事件不发生的概率。 优势(比值)odds= ; 三、模型参数的意义 三、模型参数的意义 三、模型参数的意义 四、优势比估计(及可信区间) 即ORj=exp(bj)。优势比的意义:利用参数和优势比探讨影响因素。 五、模型参数的估计 根据样本数据,可以通过统计软件求出Logistic回归模型的常数项β0和各项回归系数β,建立回归方程,描述和分析反应变量与自变量的关系。 参数估计 参数估计 标准化回归参数 标准化回归参数用于评价各自变量对模型的贡献大小。 模型参数的估计通常用统计软件完成。 根据样本数据,可以通过统计软件求出Logistic回归模型的常数项β0和各项回归系数β,在对回归系数进行检验后,建立回归方程,描述和分析反应变量与自变量的关系。 例题 为研究糖尿病与血压、血脂等因素关系,研究56例病人和65例正常人,结果如下,试进行分析。 变量赋值 也可设置哑变量 六、回归系数的假设检验 (一)Logistic回归方程的检验(对模型回归系数整体检验): ·检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系,也即方程是否成立。 ·检验的方法有似然比检验( likehood ratio test )、比分检验(score test)和Wald检验(wald test)。上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。 似然比检验( likehood ratio test ) 通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G (又称Deviance)。 G=-2(ln Lp-ln Lk) 样本量较大时,G近似服从自由度为待检验因素个数的?2分布。 似然比检验 当G大于临界值时,接受H1,拒绝无效假设,认为从整体上看适合作Logistic回归分析,回归方程成立。 本例模型的似然比检验结果:
原创力文档

文档评论(0)