多元统计分析06 逻辑回归课件.pptVIP

下载本文档

25
0
约4.5千字
约 45页
2016-03-30 发布于湖北
举报
版权申诉

多元统计分析06 逻辑回归课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

逻辑回归概述现实生活中，有很多诸如需要确定客户买或不买某种商品、银行客户信用好或不好等情况这时，某个事件以多大概率出现和哪些影响量决定该概率的问题尤为重要如果用状态1（购买）和0（不买）的因变量（Y）表示事件，则事件发生的概率P有如下关系： P(y=0)+P(y=1)=1 由于这类问题的因变量是类别变量，无法应用回归方程来解决逻辑回归是通过回归方程，确定概率的期望值一种通过分析影响因素，来得到某种结果的概率分为二项逻辑回归和多项逻辑回归建立逻辑回归方程例子：超市的销售主管想知道，顾客收入水平是否对购买新的高级黄油产品有影响。为此，他选择了12位顾客，调查他们的月净收入(x)及是否购买了该类黄油产品购买记为{y=1}，未购买记为{y=0} 调查结果如下：逻辑回归不是要估计二元变量的观察值，而是要明确这些观察值的出现概率通常把状态{y=1}看作“事件y发生”，而状态{y=0}为“事件不发生” 假设存在一个非经验观察到的隐变量z，它能对应自变量的状态xj给出因变量y的二元水平分析过程逻辑回归分析可分为五个步骤：（1）建模（2）估计逻辑回归函数（3）解释回归系数（4）检验模型整体（5）检验特征变量（1）建模逻辑回归分析的前提也是使用者首先根据实施逻辑思考确定，哪些事件应作为可能的因变量类型，哪些影响量决定事件类型的概率，从而提出关于自变量和因变量可能关系的假设自变量和事件{y=1}的出现概率间的连带关系假设二元逻辑回归：因变量是二元的，即只有0和1两个水平；因变量多于两类的，多元逻辑回归分析自变量也称为共变量，可以是基数测度和非基数测度，也可“混合” （2）估计逻辑回归函数通常用极大似然估计法估计模型的参数，目的是使观察到的调查数据的概率最大，来确定反映自变量权重的逻辑回归模型参数bj 若对每个观察个体k考虑如下关系式：确定zk值（Logit）的回归方程： zk=3.528-1.943×可涂抹性k+1.119×保质期k 将原始数据代入回归方程（3）解释回归系数自变量xj与概率Pk(y=1)间不存在线性关系，导致回归系数间不能相互比较，无法直接解释回归系数常数项只影响逻辑函数的水平位置。为正时，逻辑函数左移；为负时，逻辑函数右移回归系数影响逻辑函数的走向。回归系数较大时，概率值很快接近逻辑函数的边缘负的回归系数使事件{y=1}的概率随x值增大而减小，而正回归系数则使事件{y=1}的概率随x值增大而增大逻辑回归的发生比： “可涂抹性”的回归系数为负，该变量降低了人造黄油的购买概率；“保质期”的回归系数为正，它对购买概率产生正向影响；若自变量增加1单位，则有利于事件{y=1}的可能性比（发生比）扩大ebj倍（4）检验模型整体需要回答两个问题：?参数估计在整体中能多有效地描述定义的回归模型??是否存在极端观察个体，应把它看作离群者剔除掉，还是由于其经常出现而改变模型？回归方程的评价指标：?基于对数似然函数的评价；?伪R2统计量；?分类结果的评价； ?似然比值检验(Likelihood Ratio Test) 该方法将考虑所有解释变量最大的LL值与所有自变量的回归系数都为0且仅考虑常数项时所得出的LL值比较若两偏差的绝对差较小，则自变量对区分y水平的贡献小；若偏差绝对差较大，则认为自变量的解释能力强；似然比值检验（LR检验）的假设： H0：所有回归系数都等于0 H1：所有回归系数都不等于0 零模型和完整模型的偏差作为检验统计量，它近似服从自由度为J（自变量个数）的卡方分布在本例中，LL0=30.498，LLv=15.818，卡方值为14.68；卡方表中值5.99（自由度2，α=0.05），故模型是显著的 ?伪R2统计量伪R2统计量试图量化回归模型中已解释“变化”比例；通常McF-R2值达到0.2或0.4以上就已认为模型拟合度良好； LR检验回答了模型显著性以及结果能够运用到总体的问题，McF-R使自变量的判别能力总和可用数值表示，并可在不同模型间相互比较 CoxSnell-R2： L0：零模型的似然 LV：完整模型的似然 K：样本容量 Nagelkerke-R2：该值大于0.5时认为模型解释能力非常好 ?分类结果评价将由自变量水平0和1表示的实际观察组属性与由回归方程算出的概率相比较通常使用概率0.5作为分类的判别值把出现概率Pk(y=1)0.5的个体分入人造黄油的购买者(M)，其他分入未购买者(N) 分类矩阵(Confusion-Matrix) 如果样本容量允许，把随机样本分成两个子样本：一个分析样本和一个检验样本(Holdout-sample)。分析样本用于估计逻辑回归函数，然后