- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Logistic回归分析讲座
Logistic回归分析
当反应变量(应变量)是非连续的分类变量时,在分析变量间的相互关系是需要采用logistic回归分析。一、二分类反应变量的logistic回归分析
Logistic回归模型
(1)在M个自变量的作用下出现阳性或阴性结果的条件概率P=P(Y=1 | X1,X2,… Xm)=1/{1+ exp[-(β0+β1X1+β2X2+β3X3+…+βmXm)]}
Q=P(Y=0 | X1,X2,… Xm)=1-P= exp[-(β0+β1X1+β2X2+β3X3+…+βmXm)] / {1+ exp[-(β0+β1X1+β2X2+β3X3+…+βmXm)]}两个概率之比: P / Q=exp(β0+β1X1+β2X2+β3X3+…+βmXm)
(2)Logit变换结果
ln(P/1-P)=β0+β1X1+β2X2+β3X3+…+βmXm
回归系数估计:最大似然估计(Newton-Raphson迭代法计算),在样本量大时估计是比较准确的,而且可以进行假设检验和区间估计。
回归方程和系数的检验:似然比检验,Wald检验等
Wald检验只需将各参数的估计值与0比较,而用它的标准误作为参照,为检验,。计算下面的统计量
或
=
回归模型参数的流行病学意义
当其他自变量保持不变时,自变量Xj的两个不同取值Xj=e1, Xj=e0, 则可得到:
ln[P1/(1-P1) / P0/(1-P0)] = lnOROR值:反映了暴露与非暴露下疾病发生的风险比
队列研究和病例对照研究LOGIT模型的差别只是在β0, 但并不影响对各自变量的分析,
模型的拟和优度
通过比较模型预测的与实际观测的发生和不发生的频率有无差别来进行检验,如果预测值与实际观测值相近,说明模型的拟和效果好。
检验方法:偏差(deviance)检验 和 χ2检验(Pearson)、H-L(连续性变量)
反映拟和优度的指标:-2lnL,指标越小拟和效果越好 AIC,SC准则等
AIC-2lnL+(k+s)/n
SC=-2lnL+(k+s)ln(n)
k, 反应变量分类减1,s, 模型中的自变量个数,n, 样本量
四、模型的预测准确度
指标:决定系数,指标越到预测的准确性越高
预测和观测之间的关联:和谐程度(Somers’D, Gamm,Kendall’s Tau-a, c)(SAS)
预测的准确性:四格表
五、模型的变量选择
ENTER // STEPWISE
对于寻找最家预测模型或寻找主要的影响因素,可采用逐步回归分析;
对于实验性的研究一般不宜采用逐步回归分析;
模型的建立应结合专业知识、以可解释、简约和变量易得为准则
应用和注意事项
筛选因素
控制和校正混杂因素
要有足够的样本量样本含量 logistic回归的所有统计推断都是建立在大样本基础上的,因此要求有足够的样本含量。关于样本含量的确定,有一些工具表可供参考。经验上病例和对照的人数应至少各有30~50例,方程中变量的个数愈多需要的例数相应也愈大。对于配对资料,样本的匹配组数应为纳入方程中的自变量个数p的20倍以上,即。模型应符合生物学意义
必要是自变量需要考虑产生哑变量
注意变量的赋值,这关系到结果的解释
SPSS中条件logistic回归分析需要通过COX模型来实现
例P3因素 变量名 赋值 性别 X1 男=1,女=2 年龄 X2 连续变量 学历 X3 小学以下=1,小学=2,初中=3,高中=4,大专以上=5 体重指数 X4 24=1,24~26,26=3 家族史 X5 无=1,有=2 吸烟 X6 不吸烟=1,吸烟=2 血压 X7 正常=1,高=2 胆固醇 X8 连续变量 甘油三脂 X9 连续变量 高密度脂蛋白 X10 连续变量 低密度脂蛋白 X11 连续变量 糖尿病 Y 是=1,否=0
条件logistic回归
SPSS没有专门的模块来处理配对或配伍问题,解决的方式有二:
对于配对问题,可采用配对CASE的各自变量的差值,运用BINARY过程来实现,但仅适用于配对问题。
采用COX模型
--- 要主要数据库中数据的摆放格式,需要以成对数据摆放,需要录入配对变量
--- 要另设定虚拟时间变量TIME,以病例为1,对照为2的形式设定,当然,只要对照为大就可以了
--- 分析是将配对变量按分层变量处理即可
例题 P348
Box 1 根据反应变量的类型可以划分二分类反应变量的logistic回归分析
其适用条件:
--应变量为单个二项分类变量,其两个变量可以是任意的两个数值,系统按其取值的大小分别定义为1和0。
--自变量常称为协变量(covariate),协变量可以一个或以上,它可以是连续型或
文档评论(0)