3逻辑回归试题.pptVIP

下载本文档

231
0
约2.75千字
约 93页
2016-09-07 发布于湖北
举报
版权申诉

3逻辑回归试题.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

案例某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中，收集了一批行根治性肾切除术患者的肾癌标本资料，现从中抽取26例资料作为示例进行logistic回归分析变量介绍 i：标本序号；x1：确诊时患者年龄(岁)； x2：肾细胞癌血管内皮生长因子(VEGF)，其阳性表述由低到高共3个等级? x3：肾细胞癌组织内微血管数(MVC)? x4：肾癌细胞核组织学分级，由低到高4级? x5：肾细胞癌分期，由低到高共4期? Y：肾细胞癌转移情况(有转移y=1; 无y=0) 摘要 Block 0拟合的是只有常数的无效模型，上表为分类预测表，可见在17例观察值为0的记录中，共有17例被预测为0，9例1也都被预测为0，总预测准确率为65.4%，这是不纳入任何解释变量时的预测准确率，相当于比较基线。此处为模型概况汇总，可见从STEP1到STEP2，DEVINCE从18降到11，两种决定系数也都有上升。此处为每一步的预测情况汇总，可见准确率由Block 0的65%上升到了84%，最后达到96%，效果不错，最终只出现了一例错判。上表为方程中变量检验情况列表，分别给出了Step 1和Step 2的拟合情况。注意X4的P值略大于0.05，但仍然是可以接受的，因为这里用到的是排除标准（默认为0.1），该变量可以留在方程中。以Step 2中的X2为例，可见其系数为2.413，OR值为11。模型的进一步优化和诊断前面我们将X1~X5直接引入了方程，但X2、X4、X5为多分类变量，我们并无证据认为它们之间各等级的OR值是成倍上升的，应当采用哑变量来分析，用Categorical钮但这里总例数只有26例，如果引入哑变量模型会使得每个等级的记录数非常少，从而分析结果将极为奇怪，无法正常解释但为了说明哑变量用法，下面演示之左侧为原变量名及取值，右侧为相应的哑变量名及编码情况：即取值最高的情况被作为了基线水平，这是多分类变量生成哑变量的默认情况。我们希望将最低水平作为基线上页表出现了非常有趣的现象：所有的检验P值均远远大于0.05，但是所有的变量均没有被移出方程，这是怎么回事？再看看这页表。为方程的似然值改变情况的检验，可见在最后Step 2生成的方程中，无论移出X2还是X4都会引起方程的显著性改变。也就是说，似然比检验的结果和上面的Walds检验结果冲突，以该表为准此时预测结果精度高，只有一例0被错判为了1，并且从分布上看，这一例可能是极端情况，再引入其它变量也不见的能将预测效果改变多少。案例2 研究胃癌病人术后的感染问题。因变量是术后是否感染自变量是年龄、手术创伤程度、营养状态、术前抗菌、白细胞数、肿瘤病理分级等用二元逻辑回归进行建模和分析案例3 乳腺癌症患者的数据，变量包括年龄，患病时间，肿瘤扩散等级，肿瘤大小，肿瘤史和癌变部位淋巴是否含有癌细胞建立一个模型，预测癌变部位的淋巴结是否含有癌细胞（ln_yesno）。二项逻辑斯谛过程对话框返回定义分类变量对话框返回设置分类协变量中各类水平的对比方式，参考分类在对比矩阵中以一横排0出现。保存新变量对话框返回每个观测量发生特定事件的预测概率；还有每个观测量的预测分组选择对话框返回因变量的预测值和观测值分类直方图；拟合优度统计量；设置系统划分观测量类别的辨别值观测量简表返回分类变量代码表返回因变量分类表返回起始模型统计量表返回起始模型外的变量返回起始模型卡方检验表返回最终模型的拟合优度检验返回依据预测概率的观测量分组表返回估计概率的直方图，两组中的观测量越是分布在两端，说明分组效果好；可以适当修改辨别概率值，比如从0.5到0.3 案例4 银行贷款的用户信用记录数据 Bankloan.sav 利用二项逻辑回归来研究用户信用风险。目标目标一练习在数据库中随机抽样分析目标二利用随机抽样样本进行二项逻辑回归 3 二项逻辑斯谛回归返回背景现实世界，经常需要判断一些事情是否发生，候选人是否会当选，病患的几率，生意的成功与否一般回归分析要求直接预测被解释变量的数值，而此处的被解释变量是二分变量二项逻辑斯蒂回归模型针对具有两分特点的应变量的概率统计方法问题：利用多元回归方法分析变量之间关系或进行预测的前提是被解释变量连续定距当被解释变量为0/1二值品质型变量时：残差不再同方差，残差会随解释变量取值变化而变化残差不再正态，是二值离散分布被解释变量取值区间受限制结论当被解释变量为0/1，仍采用简单线性回归模型，则被解释变量的均值是取值为1的概率。以概率来建模概率的取值范围0-1，而一般线性回归模型取值全体实数，需要转换一般模型为