杨永利Logistic回归.pptVIP

  • 31
  • 0
  • 约4.43千字
  • 约 44页
  • 2017-05-14 发布于广东
  • 举报
杨永利Logistic回归

Logistic Regression Analysis 前 言 线性回归模型:因变量是连续的正态分布变量,且自变量和因变量呈线性关系。 logistic回归模型:因变量是分类型变量,且自变量与因变量没有线性关系。 logistic回归模型非常巧妙地避开了分类型变量的分布问题,补充完善了线性回归模型的缺陷。 【学习目标】 ① 了解logistic回归模型的基本结构。 ② 掌握logistic回归分析的用途;logistic回归系数的意义及其与优势比或相对危险度的关系。 主要内容 Logistic回归模型的基本原理 Logistic回归模型的数学函数 Logistic回归模型拟合实例 Logistic回归模型的用途和注意事项 【基本原理 】 二分类变量(Y):生存与死亡、有病与无病、有效与无效、感染与未感染等。 多分类变量(Y):疾病程度(轻度、中度、重度)、治疗效果(治疗、显效、好转、无效)等。 实际问题:哪些因素(X)导致了人群中有些人患某种病(Y)?哪些因素(X)导致了某种治疗方法出现治愈、显效、好转、无效等不同的效果(Y)? 根据反应变量(分类变量)类型的不同, logistic回归模型可分为: 【基本原理】 问题实质:建立函数y=f(x)能够用来近似地描述x和y之间关系! 困难:很难找到一个函数y=f(x),当x变化时,它对应的函数值y仅取两个或几个有限值。 新思路:不直接分析y与x的关系,分析y取某个值的概率p与x的关系。p=p(x),使得当x变化时,它对应的函数值p不超出[0,1]范围。 方法: logistic回归模型就是满足这种要求的函数之一 。 【基本原理】 logistic回归分析的基本原理就是利用一组观测数据拟合一个logistic模型,然后借助于这个模型来提示总体中若干个自变量与一个因变量取每个值的概率之间的依存关系,并评估用这一模型拟相关事物变化规律的准确性。具体地说,logistic回归分析可以从统计意义上确定在消除了其它自变量的影响后,每一个自变量的变化是否引起因变量取某个值的概率的变化,并且估计出在其它自变量固定不变的情况下,每个自变量对因变量取某个值的概率的数值影响的大小。 【 Logistic回归模型的数学函数】 若因变量y为连续型数值变量时,可采用多元线性重回归分析y与变量 X1, X2, … , Xp之间的关系: 等式左边 变化范围 经数学变换可得: 表示在不接触任何潜在危险/保护因素条件下,即在自变量均为零时效应事件发生(死亡)优势(odds)的对数值,或效应指标发生与不发生的概率之比的对数值。 为因素Xi的Logistic回归系数,exp( )为其他各因素取固定值时,因素Xi与疾病关联的优势比( OR ),反映了危险因素Xi与疾病关联的程度。或称为其某两个相邻水平相比对效应事件发生的优势比的对数值。 【实例拟合】 例17-6 为了研究荨麻疹史(1为有,0为无)及性别(1为男,0为女)是否对慢性气管炎(1为病例,0为对照)有影响,某病例对照研究的研究结果见表17-13所示,试用Logistic回归进行统计分析。 案例解析 研究目的:分析影响慢性支气管炎的因素 反应变量类型:二分类 资料收集方式:病例和对照不匹配 分析方法:非条件二项 Logistic 回归模型。 Logistic回归分析的基本步骤 (一)回归系数的估计 (最大似然法) (二)Logistic回归模型的假设检验 (似然比检验; waldχ2检验) (三)回归系数假设检验和区间估计 ( waldχ2检验) 最大似然法(Maximum likelihood estimate, ML)的基本思想是先建立似然函数或对数似然函数,求似然函数或对数似然函数达到极大时参数的取值,称为参数的最大似然估计值。 通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G (又称Deviance)。 Logistic回归模型的假设检验 似然比检验(likelihood Ratio) 得分检验(Score) Wald ?2检验 回归系数的假设检验和区间估计   通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G。样本量较大时,G近似服从自由度为待检验因素个数的?2分布。 【电脑实验】 Method Enter:所有自变量强制进入回归方程; Forward:

文档评论(0)

1亿VIP精品文档

相关文档