- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SAS 中Logistic回归方法的正确应用及结果的正确解释
Logistic回归方法的正确应用及结果的正确解释
金水高
(中国疾病预防控制中心,北京,100050)
Logistic回归是研究当因变量为二分变量时,因变量与自变量关系的常用方法,自80年代初引入国内后,随着计算机技术的发展,统计软件的日益成熟而得到了十分广泛的应用。但是并不是所有的研究者对于Logistic回归的方法都能正确使用,对结果都能正确解释。近年来文献中经常出现对方法错用、误用及对结果的错误解释的现象。本文仅就在使用Logistic方法时经常出现的错误进行探讨。
Logistic回归中分类变量的数量化方法
在Logistic回归中,自变量可以有多种形式。以连续变量形式的如年龄;以等级变量进入方程的如不同的污染等级。而更多的却是以分类变量(定性变量)形式出现的,如性别,地区,职业等。对于多水平分类变量(如职业)的各个水平的赋值方式,尽管在正规的教科书上有详细的介绍,但经常有有些作者将多水平的分类变量按等级来进行赋值(1)。下面摘引的是文献1的作者对其中一些分类变量取值的赋值(表1)。
表1 某个吸烟调查中一些自变量的意义及赋值
变量 变量意义 变量可能取值 研究者对变量的赋值 D1 如果想要烟,你认为你能容易得到吗? 非常容易;有点容易;有点困难;非常困难 1,2,3,4 M2 在过去的一个月里,你是否在电视里看到过有关吸烟的任何内容? 没有看到过;看到过,是关于反对吸烟的;看到过,是关于赞成吸烟的;看到过,反对与赞成的都有。 1,2,3,4 J4 你的祖母是否吸烟? 不吸;不知道;吸烟。 1,2,3
作者将第一个变量不同水平赋为具有等级关系的四个值,虽然比较勉强,还可以接受,因为变量的四个取值确实存在程度的差异(但为什麽相邻之间都相差1,这就没有太多的道理了)。而对后面的两个变量(M2及J4)的不同水平也赋予具有等级关系的值,而且相邻之间都相差1,那就没有任何道理了。因为变量M2是询问调查对象是否在电视中看到过有关吸烟的内容,人们对这个问题给出的答案显然并不存在任何量上的程度差别。
对这类自变量的赋值应该采取数量化的方法。通常建议的数量化方法为设置哑变量。例如对于上面的M2,有4种可能回答,则要设置3个哑变量,假设为M21,M22,M23。将每一种可能回答(水平)用一组哑变量的取值来表述(表2)。
表2。用哑变量表述M2的取值可能
可能回答 M21 M22 M23 没有看到过 0 0 0 看到过,是关于反对吸烟的; 1 0 0 看到过,是关于赞成吸烟的; 0 1 0 看到过,反对与赞成的都有。 0 0 1
从表2可以看到,用M21,M22及M23同时等于0表示没有在电视里看到过有关吸烟方面的任何内容;而用M21=1,M22及M23均为0表示在电视里看到过关于吸烟的内容,等等。由于用一组变量的取值来表示一个水平,每个水平本身也就不再代表一个数,各个水平之间也就不再存在任何数量上的联系。
对于只有两个取值的定性变量,如性别,则可以分别赋值为1和0。可以设男性时为1,而女性时为0。
Logistic回归方程中比数比(OR)的估计
自变量为连续变量时
为了简化起见,我们假设在研究吸烟与一些因素的关系时,拟合了下列形式的Logistic回归方程:
Logit (P|y=1) = b0 + b1 M21+ b2 M22+ b3 M23 + b4 (SEX) + b5(AGE)
y=1为吸烟,y=0 为不吸烟。
AGE为年龄(年)。
SEX为性别,SEX =1为男性,SEX =0为女性。
M21, M22, M23的定义同前。
由于Logit (P) = ln (P/(1-P)),则在不同年龄(AGE)时的比数可以表达如下:
当年龄=AGE1时,
P1/(1-P1) = exp(b0 + b1 M21+ b2 M22+ b3 M23 + b4 (SEX) + b5(AGE1))
当年龄=AGE2时,
P2/(1-P2) = exp(b0 + b1 M21+ b2 M22+ b3 M23 + b4 (SEX) + b5(AGE2))
则年龄2相对于年龄1的比数比为:
OR = [P2/(1-P2)] ÷[P1/(1-P1)]
= exp(b0 + b1 M21+ b2 M22+ b3 M23 + b4 (SEX) + b5(AGE2)) ÷
exp(b0 + b1 M21+ b2 M22+ b3 M23 + b4 (SEX) + b5(AGE1))
= exp[b5(AGE2 - AGE1)]
当年龄相差一岁(即AGE2-AGE1=1)时,OR = exp (b5)。
也即,b5表示年龄增加一岁的比数比的对数。
自变量为二分变量时
仍以上述方程为例。我们研究自变量为二水平(如性别)
文档评论(0)