逻辑回归教案资料.ppt

下载文档 降价啦

28
0
约2.88千字
约 46页
2020-11-30 发布于浙江
举报
版权申诉
保障服务

逻辑回归教案资料.ppt

1、本文档共46页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

逻辑回归;由于这类问题的因变量是类别变量，无法应用回归方程来解决逻辑回归是通过回归方程，确定概率的期望值一种通过分析影响因素，来得到某种结果的概率分为二项逻辑回归和多项逻辑回归;问题;;建立逻辑回归方程;值表;逻辑回归不是要估计二元变量的观察值，而是要明确这些观察值的出现概率通常把状态{y=1}看作“事件y发生”，而状态{y=0}为“事件不发生” 假设存在一个非经验观察到的隐变量z，它能对应自变量的状态xj给出因变量y的二元水平; y通过隐变量与xj建立联系：;分析过程;（1）建模逻辑回归分析的前提也是使用者首先根据实施逻辑思考确定，哪些事件应作为可能的因变量类型，哪些影响量决定事件类型的概率，从而提出关于自变量和因变量可能关系的假设自变量和事件{y=1}的出现概率间的连带关系假设 ;二元逻辑回归：因变量是二元的，即只有0和1两个水平；因变量多于两类的，多元逻辑回归分析自变量也称为共变量，可以是基数测度和非基数测度，也可“混合”;人造黄油购买者{y=1};（2）估计逻辑回归函数通常用极大似然估计法估计模型的参数，目的是使观察到的调查数据的概率最大，来确定反映自变量权重的逻辑回归模型参数bj 若对每个观察个体k考虑如下关系式：;Newton-Raphson算法;Newton-Raphson （1）计算逻辑系数的估计值，可用最小二乘法；（2）对任意观察个体k，利用(1)算的逻辑系数，计算Logit，及概率Pk(y=1) （3）选择一些个体根据对数似然函数计算对数似然值（4）对所有观察个体进行(2-3)步，以确定总对数似然函数（5）用其它bj值重复(2-4)步（6）比较不同系数群的总对数似然函数，重复上述步骤修改回归系数，直到总对数似然函数不再有明显增大;确定zk值（Logit）的回归方程： zk=3.528-1.943×可涂抹性k+1.119×保质期k 将原始数据代入回归方程;（3）解释回归系数自变量xj与概率Pk(y=1)间不存在线性关系，导致回归系数间不能相互比较，无法直接解释回归系数 ;常数项只影响逻辑函数的水平位置。为正时，逻辑函数左移；为负时，逻辑函数右移回归系数影响逻辑函数的走向。回归系数较大时，概率值很快接近逻辑函数的边缘负的回归系数使事件{y=1}的概率随x值增大而减小，而正回归系数则使事件{y=1}的概率随x值增大而增大;逻辑回归的发生比： ;“可涂抹性”的回归系数为负，该变量降低了人造黄油的购买概率；“保质期”的回归系数为正，它对购买概率产生正向影响；若自变量增加1单位，则有利于事件{y=1}的可能性比（发生比）扩大ebj倍;正、负回归系数对事件{y=1}的出现概率的影响：;（4）检验模型整体需要回答两个问题：?参数估计在整体中能多有效地描述定义的回归模型??是否存在极端观察个体，应把它看作离群者剔除掉，还是由于其经常出现而改变模型？回归方程的评价指标：?基于对数似然函数的评价；?伪R2统计量；?分类结果的评价； ;?似然比值检验该方法将考虑所有解释变量最大的LL值与所有自变量的回归系数都为0且仅考虑常数项时所得出的LL值比较若两偏差的绝对差较小，则自变量对区分y水平的贡献小；若偏差绝对差较大，则认为自变量的解释能力强；;似然比值检验（LR检验）的假设： H0：所有回归系数都等于0 H1：所有回归系数都不等于0 零模型和完整模型的偏差作为检验统计量，它近似服从自由度为J（自变量个数）的卡方分布在本例中，LL0=30.498，LLv=15.818，卡方值为14.68；卡方表中值5.99（自由度2，α=0.05），故模型是显著的 ;?伪R2统计量伪R2统计量试图量化回归模型中已解释“变化”比例；通常McF-R2值达到0.2或0.4以上就已认为模型拟合度良好； LR检验回答了模型显著性以及结果能够运用到总体的问题，McF-R使自变量的判别能力总和可用数值表示，并可在不同模型间相互比较;CoxSnell-R2： L0：零模型的似然 LV：完整模型的似然 K：样本容量 ;Nagelkerke-R2：该值大于0.5时认为模型解释能力非常好 ;?分类结果评价将由自变量水平0和1表示的实际观察组属性与由回归方程算出的概率相比较通常使用概率0.5作为分类的判别值把出现概率Pk(y=1)0.5的个体分入人造黄油的购买者(M)，其他分入未购买者(N);分类矩阵(Confusion-Matrix);如果样本容量允许，把随机样本分成两个子样本：一个分析样本和一个检验样本(Holdout-sample)。分析样本用于估计逻辑回归函数，然后根据此函数将检验样本中的元素分类，并计算判对比率；;Press Q检验该检验统计量服从自由度为1的卡方分布;重要模型拟合度评价指标总结;