第8章：Logistic回归分析.pptVIP

下载本文档

0
0
约7.85千字
约 67页
2024-09-15 发布于广东
举报
版权申诉

第8章：Logistic回归分析.ppt

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共67页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

上表中x3(性别)、x1(年龄)、x2(月收入)是3个自变量,Wals是回归系数检验的统计量值:Sig是Wald检验的显著性概率。可以看到，x2(月收入)不显著。采用“进入”回归，输出结果见下表:可以看到，x1(年龄)、x3(性别)两个自变量都是显著的，因而最终的回归方程为:根据以上方程式可知:⑴年龄越高乘车的比例也越高；⑵女性乘公共汽车的比例高于男性。【例8.3】研究银行客户的贷款拖欠问题。通过分析银行掌握的一些客户资料和交易信息，推断指定客户的预期信誉。数据格式如下:本例数据集中的前700个案例是先前申请过贷款的用户,将利用其中的一个随机样本拟合一个二元逻辑回归模型,然后用拟合的模型对后150名预期用户进行信誉分类。因变量为是否拖欠(default),取值为0(No)时,表示没有拖欠贷款；取值为1(Yes)时,表示有拖欠贷款。⑴抽取分析样本①指定随机种子。依次单击“转换→随机数字生成器……”命令,打开生成随机数的设置界面。输9191972②计算筛选变量。依次单击“转换→计算变量……”命令。在“目标变量”处输入变量名“validate”；在“数字表达式”编辑框输入rv.bernoulli(0.7)。单击左下角的“如果”并输入Missing(default)=0⑵变量设置将是否拖欠变量(default)作为因变量选入“因变量”框,将从年龄至其他债务8个变量作为协变量选入“协变量”列表框。选中“向前:LR”,单击“validate”进入“选择变量”框,单击“规则”,选中“等于”选项,输入1。⑶分类变量设置在变量列表中选中教育水平变量,将其作为分类变量。⑷保存设置勾选:“概率”、“学生化”、“Cook距离”和“包含协方差矩阵”复选框。⑸选项设置勾选:“分类图”和“Hosmer-Lemeshow拟合度”复选框。单击“确定”，系统输出以下结果:上表中CoxandSnellR方和NagelkerkeR方两个统计量取代了线性回归中的R方统计量。本例中他们的取值分别为0.281和0.417,只看这一点,模型拟合的并不理想。这两个统计量一般用于不同模型之间的比较,R方值越大的模型,拟合的效果越好。Hosmer和Lemeshow检验表格的原假设为:模型能够很好拟合数据。从软件运行结果看:显著性检验的Sig=0.855结论:接受原假设，认为模型能够很好拟合数据。Hosmer和Lemeshow检验的随机性表格根据目标变量的预测概率,把结果分为大致相等的10个组。“总计”列中是每组的观测数,由于预测值相等的观测被分到一起,所以各组的观测数不一定相同。此表直观地反映了模型预测的效果,可以看出各组的观测值和预测值大致相同,所以模型的拟合效果不错。上表给出了观测值和预测值的列联表,预测概率大于0.5,预测为Yes；反之预测为No。对于最终模型,建模用的124个拖欠用户中有57个判断正确,正确率为46.0%；建模用的375个无拖欠用户中有352个判断正确,正确率为93.9%；总的回判正确率为82.0%,这说明模型的预测效果不错,尤其是对那些无拖欠的用户的预测。上表中Wald统计量的Sig值全部小于0.05,说明参数估计值都显著地不为0。利用该模型,就可以对150名预期用户进行信誉分类。Exp(B)表示在其它情况不变的条件下,某个自变量变动1个单位而引起的发生比Odd的变化率。该图为预测概率的直方图。横轴为对拖欠贷款概率的预测概率值,纵轴为观测的频数。符号Y代表拖欠,N代表不拖欠。如果模型对原数据成功进行了模拟,则发生拖欠贷款的观测应分布在图形的右侧,其它观测应分布在图形的左侧。本例总体来看,模型的拟合效果不错。该图为学生化残差的平方对预测概率的散点图。图中纵轴取值较大的点表示模型对这些点的拟合效果较差。由低到高的曲线代表的是因变量取0的观测的残差的变化,说明这类观测的预测概率越大,拟合效果越差。该图为Cook距离对预测概率的散点图。图中有较少的几个奇异值,它们的Cook值都很大,可能影响了分析,可以进一步对它们进行单独研究。第二节无序多分类Logistic回归一、模型简介