SAS学习系列26Logistic回归.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SAS学习系列26Logistic回归

26. Logistic回归 (一)Logistic回归一、原理二元或多元线性回归的因变量都是连续型变量,若因变量是分类变量(例如:患病与不患病;不重要、重要、非常重要),就需要用Logistic回归。Logistic回归分析可以从统计意义上估计出在其它自变量固定不变的情况下,每个自变量对因变量取某个值的概率的数值影响大小。Logistic回归模型有“条件”与“非条件”之分,前者适用于配对病例对照资料的分析,后者适用于队列研究或非配对的病例-对照研究成组资料的分析。对于二分类因变量,y=1表示事件发生;y=0表示事件不发生。事件发生的条件概率P{ y=1 | xi } 与 xi 之间是非线性关系,通常是单调的,即随着xi 的增加/减少,P{ y=1 | xi } 也增加/减少。Logistic函数F(x)=,图形如下图所示:该函数值域在(0,1)之间,x趋于-∞时,F(x)趋于0;x趋于+∞时,F(x)趋于1. 正好适合描述概率P{ y=1 | xi }. 例如,某因素x导致患病与否:x在某一水平段内变化时,对患病概率的影响较大;而在x较低或较高时对患病概率影响都不大。记事件发生的条件概率P{ y=1 | xi } = pi,则pi = =记事件不发生的条件概率为1- pi = 则在条件xi下,事件发生概率与事件不发生概率之比为 = 称为事件的发生比,简记为odds. 对odds取自然对数得到上式左边(对数发生比)记为Logit(y), 称为y的Logit变换。可见变换之后的Logit(y)就可以用线性回归,计算出回归系数α和β值。若分类因变量y与多个自变量xi有关,则变换后Logit(y)可由多元线性回归:或 二、回归参数的解释1. 三个名词发生比(odds)= = 例如,事件发生概率为0.6,不发生概率为0.4,则发生比为1.5(发生比1,表示事件更可能发生)。发生比率(OR)= = = = 即主对角线乘积/副对角线乘积,也称为交叉积比率,优势比。例如,说明:大于1(小于1)的发生比率,表明事件发生的可能性会提高(降低),或自变量对事件概率有正(负)的作用;发生比率为1表示变量对事件概率无作用。相对风险(RR)= = 用来进行两组概率之间的比较。当p1= p2时,相对风险为1,表明两组在事件发生方面没有差别。2. 连续型自变量回归参数的解释截距α : 基准发生比的对数,即当Logistic回归模型中没有任何自变量时(除常量外,所有自变量都取0值)所产生的发生比。由于理解发生比,比理解对数发生比更容易,故将Logistic回归模型改写为:odds = = 若βk0(βk0),则1(1), 即xk每增加一个单位值时发生比会相应增加(减少);若βk=0,则=1, 那么xk不论怎样变化发生比都不会变化。反映了自变量xk增加一个单位时发生比所变化的倍数,即(xk+1)时的发生比与原发生比【(xk)时】之比。自变量xk每变化一个单位,发生比率的变化率为注:由于βk是自变量xk的偏系数估计,故称为调整发生比率(AOR)的估计。实际中,往往更关心的不是自变量变化1个单位,而是变化一段水平b-a个单位,例如年龄每增加5岁,此时调整发生比率为AOR = 3. 二分类自变量回归参数的解释二分类变量,例如性别,取值可以用0或1编码,也称为标志变量或虚拟变量。若xk为取值0或1的二分类变量,则有两式作差得可见βk就是在控制其它变量条件下,xk=1与xk=0的对数发生比的差;也即是发生比率的对数,即调整发生比率的估计可表示为 = 注意,发生比率是,而不是两者概率比4. 多分类变量的处理与回归参数的解释当分类自变量多于两个类别时,需要建立一组虚拟变量来代表类型的归属性质。若一个分类变量包括m个类别,则可以产生m个相应的虚拟变量,但建模需要的虚拟变量的数目为m-1. 省略的那个类别作为参照类。例如,年龄是有序变量,按年龄段分为四个类别:x40,40≤x50,50≤x60, x≥60.设置3个虚拟变量Age1表示40≤x50(属于该年龄段则Age1=1,否则Age1=0);Age2表示50≤x60(属于该年龄段则Age2=1,否则Age2=0);Age3 表示x≥60(属于该年龄段则Age3=1,否则Age3=0);另一个不指定虚拟变量的x40作为参照类(Age1,Age2,Age3都为0;哪一类作为参照类是随意的,取决于偏好或解释的方便)。则模型为同二分类变量时一样,β1代表40≤x50与参照类(Age0: x40)在因变量上的差别,故β1 = ln(odds)Age1 vs Age0且40≤x50对 x40的发生比率为.注:(1)名义变量直接就是分类变量;连续变量也可以改为分类变量,例如考试成绩按分数段分为高、中、低三档。(2)另外,也可采用效

文档评论(0)

didala + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档