《二分类与多分类Logistic回归模型.docVIP

下载本文档

38
0
约1.11万字
约 13页
2017-01-18 发布于北京
举报
版权申诉

《二分类与多分类Logistic回归模型.doc

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《二分类与多分类Logistic回归模型

二分类Logistic回归模型在对资料进行统计分析时常遇到反应变量为分类变量的资料，那么，能否用类似于线性回归的模型来对这种资料进行分析呢？答案是肯定的。本章将向大家介绍对二分类因变量进行回归建模的Logistic回归模型。第一节模型简介一、模型入门在很多场合下都能碰到反应变量为二分类的资料，如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。对于分类资料的分析，相信大家并不陌生，当要考察的影响因素较少，且也为分类变量时，分析者常用列联表(contingency Table)的形式对这种资料进行整理，并使用检验来进行分析，汉存在分类的混杂因素时，还可应用Mantel-Haenszel检验进行统计学检验，这种方法可以很好地控制混杂因素的影响。但是这种经典分析方法也存在局限性，首先，它虽然可以控制若干个因素的作用，但无法描述其作用大小及方向，更不能考察各因素间是否存在交互任用；其次，该方法对样本含量的要求较大，当控制的分层因素较多时，单元格被划分的越来越细，列联表的格子中频数可能很小甚至为0，将导致检验结果的不可靠。最后，检验无法对连续性自变量的影响进行分析，而这将大大限制其应用范围，无疑是其致使的缺陷。那么，能否建立类似于线性回归的模型，对这种数据加以分析？以最简单的二分类因变量为例来加以探讨，为了讨论方便，常定义出现阳性结果时反应变量取值为1，反之则取值为0 。例如当领导层有女性职员、下雨、痊愈时反应变量，而没有女性职员、未下雨、未痊愈时反应变量。记出现阳性结果的频率为反应变量。首先，回顾一下标准的线性回归模型：如果对分类变量直接拟合，则实质上拟合的是发生概率，参照前面线性回归方程，很自然地会想到是否可以建立下面形式的回归模型：显然，该模型可以描述当各自变量变化时，因变量的发生概率会怎样变化，可以满足分析的基本要求。实际上，统计学家们最早也在朝这一方向努力，并考虑到最小二乘法拟合时遇到的各种问题，对计算方法进行了改进，最终提出了加权最小二乘法来对该模型进行拟合，至今这种分析思路还偶有应用。既然可以使用加权最小二乘法对模型加以估计，为什么现在又放弃了这种做法呢？原因在于有以下两个问题是这种分析思路所无法解决的：（1）取值区间：上述模型右侧的取值范围，或者说应用上述模型进行预报的范围为整个实数集，而模型的左边的取值范围为，二者并不相符。模型本身不能保证在自变量的各种组合下，因变量的估计值仍限制在0～1内，因此可能分析者会得到这种荒唐的结论：男性、30岁、病情较轻的患者被治愈的概率是300%！研究者当然可以将此结果等价于100%可以治愈，但是从数理统计的角度讲，这种模型显然是极不严谨的。（2）曲线关联：根据大量的观察，反应变量P与自变量的关系通常不是直线关系，而是S型曲线关系。这里以收入水平和购车概率的关系来加以说明，当收入非常低时，收入的增加对购买概率影响很小；但是在收入达到某一阈值时，购买概率会随着收入的增加而迅速增加；在购买概率达到一定水平，绝大部分在该收入水平的人都会购车时，收入增加的影响又会逐渐减弱。如果用图形来表示，则如图1所示。显然，线性关联是线性回归中至关重要的一个前提假设，而在上述模型中这一假设是明显无法满足的。图1 S型曲线图以上问题促使统计学家们不得不寻求新的解决思路，如同在曲线回归中，往往采用变量变换，使得曲线直线化，然后再进行直线回归方程的拟合。那么，能否考虑对所预测的因变量加以变换，以使得以上矛盾得以解决？基于这一思想，又有一大批统计学家在寻找合适的变换函数。终于，在1970年，Cox引入了以前用于人口学领域的Logit变换(Logit Transformation)，成功地解决了上述问题。那么，什么是Logit变换呢？通常的把出现某种结果的概率与不出现的概率之比称为比值(odds，国内也译为优势、比数)，即，取其对数。这就是logit变换。下面来看一下该变换是如何解决上述两个问题的，首先是因变量取值区间的变化，概率是以0.5为对称点，分布在0～1的范围内的，而相应的logit(P)的大小为： ∞ ∞ 显然，通过变换，Logit()的取值范围就被扩展为以0为对称点的整个实数域，这使得在任何自变量取值下，对值的预测均有实际意义。其次，大量实践证明，Logit()往往和自变量呈线性关系，换言之，概率和自变量间关系的S形曲线往往就符合logit函数关系，从而可以通过该变换将曲线直线化。因此，只需要以Logit()为因变量，建立包含p个自变量的logistic回归模型如下：以上即为logistic回归模型。由上式可推