逻辑回归模型分析见解.docVIP

下载本文档

20
0
约3.84千字
约 15页
2022-07-14 发布于江苏
举报
版权申诉

逻辑回归模型分析见解.doc

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

逻辑回归模型分析见解 1.逻辑回归模型 1.1逻辑回归模型考虑具有p个独立变量的向量,设条件概率为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为　　　　　　　　　（1.1）上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。其中。如果含有名义变量，则将其变为dummy变量。一个具有k个取值的名义变量，将变为k-1个dummy变量。这样，有（1.2）　　定义不发生事件的条件概率为于是，最大似然估计的关键就是求出参数，使上式取得最大值。对上述函数求对数（1.8）上式称为对数似然函数。为了估计能使取得最大的参数的值。对此函数求导，得到p+1个似然方程。（1.9），j=1,2,..,p. 上式称为似然方程。为了解上述非线性方程，应用牛顿－拉斐森(Newton-Raphson)方法进行迭代求解。 1.3　牛顿－拉斐森迭代法　　对求二阶偏导数，即Hessian矩阵为（1.10）如果写成矩阵形式，以Ｈ表示Hessian矩阵，Ｘ表示（1.11）令（1.12）则。再令(注：前一个矩阵需转置)，即似然方程的矩阵形式。得牛顿迭代法的形式为（1.13）注意到上式中矩阵Ｈ为对称正定的，求解即为求解线性方程ＨＸ＝Ｕ中的矩阵Ｘ。对Ｈ进行cholesky分解。最大似然估计的渐近方差（asymptotic variance）和协方差(covariance)可以由信息矩阵（information matrix）的逆矩阵估计出来。而信息矩阵实际上是二阶导数的负值，表示为。估计值的方差和协方差表示为，也就是说，估计值的方差为矩阵Ｉ的逆矩阵的对角线上的值，而估计值和的协方差为除了对角线以外的值。然而在多数情况，我们将使用估计值的标准方差，表示为，for j=0,1,2,…,p （1.14）２.显著性检验下面讨论在逻辑回归模型中自变量是否与反应变量显著相关的显著性检验。零假设：＝0（表示自变量对事件发生可能性无影响作用）。如果零假设被拒绝，说明事件发生可能性依赖于的变化。 2.1 Wald test 对回归系数进行显著性检验时，通常使用Wald检验，其公式为（2.1）其中, 为的标准误差。这个单变量Wald统计量服从自由度等于１的分布。　　如果需要检验假设：＝0,计算统计量（2.2）其中，为去掉所在的行和列的估计值，相应地，为去掉所在的行和列的标准误差。这里，Wald统计量服从自由度等于p的分布。如果将上式写成矩阵形式，有（2.3）矩阵Ｑ是第一列为零的一常数矩阵。例如，如果检验，则。　　然而当回归系数的绝对值很大时，这一系数的估计标准误就会膨胀，于是会导致Wald统计值变得很小，以致第二类错误的概率增加。也就是说，在实际上会导致应该拒绝零假设时却未能拒绝。所以当发现回归系数的绝对值很大时，就不再用Wald统计值来检验零假设，而应该使用似然比检验来代替。 2.2　似然比（Likelihood ratio test）检验　　在一个模型里面，含有变量与不含变量的对数似然值乘以-2的结果之差，服从分布。这一检验统计量称为似然比(likelihood ratio)，用式子表示为（2.4）计算似然值采用公式（1.8）。倘若需要检验假设：＝0,计算统计量　（2.5）上式中，表示＝0的观测值的个数，而表示＝１的观测值的个数，那么n就表示所有观测值的个数了。实际上，上式的右端的右半部分表示只含有的似然值。统计量G服从自由度为p的分布 2.3 Score检验　　在零假设：＝0下，设参数的估计值为，即对应的＝0。计算Score统计量的公式为　　　　　　　　　　（2.6）上式中，表示在＝0下的对数似然函数（1.9）的一价偏导数值，而表示在＝0下的对数似然函数（1.9）的二价偏导数值。Score统计量服从自由度等于１的分布。 2.4　模型拟合信息　　模型建立后，考虑和比较模型的拟合程度。有三个度量值可作为拟合的判断根据。 (1)-2LogLikelihood (2.7) (2) Akaike信息准则（Akaike Information Criterion,简写为AIC） (2.8) 　其中Ｋ为模型中自变量的数目，Ｓ为反应变量类别总数减１，对于逻辑回归有S=2-1=1。-2LogL的值域为0至，其值越小说明拟合越好。当模型中的参数数量越大时，似然值也就越大，-2LogL就变小。因此，将２(K+S)加到AIC公式中以抵销参数数量产生的影响。在其它条件不变的情况下，较小的AIC值表示拟合模型较好。 (3)Schwarz准则　　这一指标根据自变量数目和观测数量对-2LogL值进行另外一种调整。SC指标的定义为 (2.9) 其中ln(n)是观测数量的自然对数。这一指标