多元统计分析06 逻辑回归课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
逻 辑 回 归 概述 现实生活中,有很多诸如需要确定客户买或不买某种商品、银行客户信用好或不好等情况 这时,某个事件以多大概率出现和哪些影响量决定该概率的问题尤为重要 如果用状态1(购买)和0(不买)的因变量(Y)表示事件,则事件发生的概率P有如下关系: P(y=0)+P(y=1)=1 由于这类问题的因变量是类别变量,无法应用回归方程来解决 逻辑回归是通过回归方程,确定概率的期望值 一种通过分析影响因素,来得到某种结果的概率 分为二项逻辑回归和多项逻辑回归 建立逻辑回归方程 例子:超市的销售主管想知道,顾客收入水平是否对购买新的高级黄油产品有影响。为此,他选择了12位顾客,调查他们的月净收入(x)及是否购买了该类黄油产品 购买记为{y=1},未购买记为{y=0} 调查结果如下: 逻辑回归不是要估计二元变量的观察值,而是要明确这些观察值的出现概率 通常把状态{y=1}看作“事件y发生”,而状态{y=0}为“事件不发生” 假设存在一个非经验观察到的隐变量z,它能对应自变量的状态xj给出因变量y的二元水平 分析过程 逻辑回归分析可分为五个步骤: (1)建模 (2)估计逻辑回归函数 (3)解释回归系数 (4)检验模型整体 (5)检验特征变量 (1)建模 逻辑回归分析的前提也是使用者首先根据实施逻辑思考确定,哪些事件应作为可能的因变量类型,哪些影响量决定事件类型的概率,从而提出关于自变量和因变量可能关系的假设 自变量和事件{y=1}的出现概率间的连带关系假设 二元逻辑回归:因变量是二元的,即只有0和1两个水平; 因变量多于两类的,多元逻辑回归分析 自变量也称为共变量,可以是基数测度和非基数测度,也可“混合” (2)估计逻辑回归函数 通常用极大似然估计法估计模型的参数,目的是使观察到的调查数据的概率最大,来确定反映自变量权重的逻辑回归模型参数bj 若对每个观察个体k考虑如下关系式: 确定zk值(Logit)的回归方程: zk=3.528-1.943×可涂抹性k+1.119×保质期k 将原始数据代入回归方程 (3)解释回归系数 自变量xj与概率Pk(y=1)间不存在线性关系,导致回归系数间不能相互比较,无法直接解释回归系数 常数项只影响逻辑函数的水平位置。为正时,逻辑函数左移;为负时,逻辑函数右移 回归系数影响逻辑函数的走向。回归系数较大时,概率值很快接近逻辑函数的边缘 负的回归系数使事件{y=1}的概率随x值增大而减小,而正回归系数则使事件{y=1}的概率随x值增大而增大 逻辑回归的发生比: “可涂抹性”的回归系数为负,该变量降低了人造黄油的购买概率;“保质期”的回归系数为正,它对购买概率产生正向影响; 若自变量增加1单位,则有利于事件{y=1}的可能性比(发生比)扩大ebj倍 (4)检验模型整体 需要回答两个问题:?参数估计在整体中能多有效地描述定义的回归模型??是否存在极端观察个体,应把它看作离群者剔除掉,还是由于其经常出现而改变模型? 回归方程的评价指标:?基于对数似然函数的评价;?伪R2统计量;?分类结果的评价; ?似然比值检验(Likelihood Ratio Test) 该方法将考虑所有解释变量最大的LL值与所有自变量的回归系数都为0且仅考虑常数项时所得出的LL值比较 若两偏差的绝对差较小,则自变量对区分y水平的贡献小;若偏差绝对差较大,则认为自变量的解释能力强; 似然比值检验(LR检验)的假设: H0:所有回归系数都等于0 H1:所有回归系数都不等于0 零模型和完整模型的偏差作为检验统计量,它近似服从自由度为J(自变量个数)的卡方分布 在本例中,LL0=30.498,LLv=15.818,卡方值为14.68;卡方表中值5.99(自由度2,α=0.05),故模型是显著的 ?伪R2统计量 伪R2统计量试图量化回归模型中已解释“变化”比例; 通常McF-R2值达到0.2或0.4以上就已认为模型拟合度良好; LR检验回答了模型显著性以及结果能够运用到总体的问题,McF-R使自变量的判别能力总和可用数值表示,并可在不同模型间相互比较 CoxSnell-R2: L0:零模型的似然 LV:完整模型的似然 K:样本容量 Nagelkerke-R2: 该值大于0.5时认为模型解释能力非常好 ?分类结果评价 将由自变量水平0和1表示的实际观察组属性与由回归方程算出的概率相比较 通常使用概率0.5作为分类的判别值 把出现概率Pk(y=1)0.5的个体分入人造黄油的购买者(M),其他分入未购买者(N) 分类矩阵(Confusion-Matrix) 如果样本容量允许,把随机样本分成两个子样本:一个分析样本和一个检验样本(Holdout-sample)。 分析样本用于估计逻辑回归函数,然后

文档评论(0)

创业文库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档