逻辑回归教案资料.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
逻辑回归;由于这类问题的因变量是类别变量,无法应用回归方程来解决 逻辑回归是通过回归方程,确定概率的期望值 一种通过分析影响因素,来得到某种结果的概率 分为二项逻辑回归和多项逻辑回归;问题;;建立逻辑回归方程;值表;逻辑回归不是要估计二元变量的观察值,而是要明确这些观察值的出现概率 通常把状态{y=1}看作“事件y发生”,而状态{y=0}为“事件不发生” 假设存在一个非经验观察到的隐变量z,它能对应自变量的状态xj给出因变量y的二元水平; y通过隐变量与xj建立联系:;分析过程;(1)建模 逻辑回归分析的前提也是使用者首先根据实施逻辑思考确定,哪些事件应作为可能的因变量类型,哪些影响量决定事件类型的概率,从而提出关于自变量和因变量可能关系的假设 自变量和事件{y=1}的出现概率间的连带关系假设 ;二元逻辑回归:因变量是二元的,即只有0和1两个水平; 因变量多于两类的,多元逻辑回归分析 自变量也称为共变量,可以是基数测度和非基数测度,也可“混合”;人造黄油购买者{y=1};(2)估计逻辑回归函数 通常用极大似然估计法估计模型的参数,目的是使观察到的调查数据的概率最大,来确定反映自变量权重的逻辑回归模型参数bj 若对每个观察个体k考虑如下关系式:;Newton-Raphson算法;Newton-Raphson (1)计算逻辑系数的估计值,可用最小二乘法; (2)对任意观察个体k,利用(1)算的逻辑系数,计算Logit,及概率Pk(y=1) (3)选择一些个体根据对数似然函数计算对数似然值 (4)对所有观察个体进行(2-3)步,以确定总对数似然函数 (5)用其它bj值重复(2-4)步 (6)比较不同系数群的总对数似然函数,重复上述步骤修改回归系数,直到总对数似然函数不再有明显增大;确定zk值(Logit)的回归方程: zk=3.528-1.943×可涂抹性k+1.119×保质期k 将原始数据代入回归方程;(3)解释回归系数 自变量xj与概率Pk(y=1)间不存在线性关系,导致回归系数间不能相互比较,无法直接解释回归系数 ;常数项只影响逻辑函数的水平位置。为正时,逻辑函数左移;为负时,逻辑函数右移 回归系数影响逻辑函数的走向。回归系数较大时,概率值很快接近逻辑函数的边缘 负的回归系数使事件{y=1}的概率随x值增大而减小,而正回归系数则使事件{y=1}的概率随x值增大而增大;逻辑回归的发生比: ;“可涂抹性”的回归系数为负,该变量降低了人造黄油的购买概率;“保质期”的回归系数为正,它对购买概率产生正向影响; 若自变量增加1单位,则有利于事件{y=1}的可能性比(发生比)扩大ebj倍;正、负回归系数对事件{y=1}的出现概率的影响:;(4)检验模型整体 需要回答两个问题:?参数估计在整体中能多有效地描述定义的回归模型??是否存在极端观察个体,应把它看作离群者剔除掉,还是由于其经常出现而改变模型? 回归方程的评价指标:?基于对数似然函数的评价;?伪R2统计量;?分类结果的评价; ;?似然比值检验 该方法将考虑所有解释变量最大的LL值与所有自变量的回归系数都为0且仅考虑常数项时所得出的LL值比较 若两偏差的绝对差较小,则自变量对区分y水平的贡献小;若偏差绝对差较大,则认为自变量的解释能力强;;似然比值检验(LR检验)的假设: H0:所有回归系数都等于0 H1:所有回归系数都不等于0 零模型和完整模型的偏差作为检验统计量,它近似服从自由度为J(自变量个数)的卡方分布 在本例中,LL0=30.498,LLv=15.818,卡方值为14.68;卡方表中值5.99(自由度2,α=0.05),故模型是显著的 ;?伪R2统计量 伪R2统计量试图量化回归模型中已解释“变化”比例; 通常McF-R2值达到0.2或0.4以上就已认为模型拟合度良好; LR检验回答了模型显著性以及结果能够运用到总体的问题,McF-R使自变量的判别能力总和可用数值表示,并可在不同模型间相互比较;CoxSnell-R2: L0:零模型的似然 LV:完整模型的似然 K:样本容量 ;Nagelkerke-R2: 该值大于0.5时认为模型解释能力非常好 ;?分类结果评价 将由自变量水平0和1表示的实际观察组属性与由回归方程算出的概率相比较 通常使用概率0.5作为分类的判别值 把出现概率Pk(y=1)0.5的个体分入人造黄油的购买者(M),其他分入未购买者(N);分类矩阵(Confusion-Matrix);如果样本容量允许,把随机样本分成两个子样本:一个分析样本和一个检验样本(Holdout-sample)。 分析样本用于估计逻辑回归函数,然后根据此函数将检验样本中的元素分类,并计算判对比率;;Press Q检验 该检验统计量服从自由度为1的卡方分布;重要模型拟合度评价指标总结;

文档评论(0)

137****6233 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档