Logistic回归分析zxl.PPT

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Logistic回归分析zxl

注:在保存变量中一般最关心概率的预测值和类别的预测值。一般以0.5为分割点,预测概率大于0.5,预测为Y=1;预测概率小于0.5,预测为Y=0。 * 注:因变量和哑变量的编码是非常重要的信息,对于模型参数的解读和模型的分析都非常中重要。 * 注:初始模型,一般从全模型开始。Age没有通过检验,income这一类变量通过了,但是其中某一个哑变量没有通过,经验做法是这一类哑变量全部保留。 * 注:模型整体的线性通过检验,但是拟合指标显示,模型的拟合程度并不好。Logistic回归模型的参数估计值是采用迭代算法获得,因此需要迭代收敛。 * 注:因为pa,所以认为样本实际值得到的分布与预测值得到的分布无显著差异,模型拟合优度较好。 * 注:模型整体的准确度不高,对不购买人群的准确率极高,对购买人群的准确率很低。 * 注:预测类别图上可以看出,预测概率在0.4附近的样本预测准确率相对最低。事实上,无论用什么分类方法,这类样本身就是最难预测的。 * 注:这是采用向前LR的筛选策略进行变量选择。目前保存在模型中的变量都是通过了参数的显著性检验。 * 注:从拟合效果看,前后两个模型并没有太大差别。 * 注:虽然模型整体的准确度略有下降,但是对于购买人群预测的准确率提高了。从应用角度看第二个模型较第一模型的应用性略强些。 * 模型评价: 模型表达式,并结合发生比,得知:相同性别中,中等收入的发生比是低等收入的1.101倍,高等收入的发生比是低等收入的2.139倍,可见中等收入的购买概率优势不明显,高等收入优势明显。相同收入中,女性的发生比是男性的1.656倍,女性更倾向于购买该产品。 * 9.3 多项Logistic回归分析 当被解释变量为多分类变量时(分类数2),且类别之间是无序的,则应采用多项Logistic回归分析,也称为广义Logit模型。 研究目的:分析被解释变量各类别与参照类别的对比情况,即 其中 为被解释变量为第j类的概率, 为别解释变量为第J(J为参照类)类的概率。如果被解释变量有 * K个类别,则需要建立K-1个模型。 例如:设被解释变量有A,B,C三个类别,且以C为类别做参考,则应该建立两个广义Logit模型: * 注1:因 ,故 ,如果利用该模型做分类预测,则将样本的类别判为概率相对最大的一类。 注2:如果想比较A和B,则直接将 即可以获得相应的函数。 注3:显而易见,针对无序多分类结果的另一种常用分析方法是判别分析,它和多项Logistic回归模型既有联系也有区别,在应用上判别分析重在预测,而多项Logistic回归模型则更关心的是发现影响因素。 * 应用举例 例:研究不同学校(school)和不同课程计划(program)对学生学习方式偏好(style)的影响。 注:原始数据和 频数方式存放都 可以。但是,频 数方式不要忘记 对“频数”加权 * 注:多项Logistic模型的参数和检验与二项Logistic模型有很多类似之处,在举例时注重列举二者的区别之处。 * 被解释变量 分类自变量 连续自变量 注:在model中安默认选择即可,Main effects表示只分析自变量的主效应,不分析它们的交互作用。 * 注 :Iterations用于设置模型收敛标准,Delta框中输入一个0-1之间的数,系统会用该数值代替频数为0的单元格的频数值,这样可以使模型拟合比较稳定。 * 注:关于变量筛选的准则。 * 注:用于选择模型的一些统计量,已经勾出常规建议选项,下面逐一解释每个选择的输出。 * 注:case processing summary提供输出各分类变量的边缘分布。 * 注:Pseudo R-square提供模型拟合优度指标“伪决定系数”,都反映的是方程对被解释变量变差解释程度的反映。通常这三个值都不会很大,N越接近1越好,M在0.3-0.5之间则说明拟合很好了。一般,在Logistic模型分析中不太关心它们的大小。 McFadden统计量= * 注:Model fitting information提供了回归方程整体显著性检验结果。因pa,故拒绝原假设,说明解释变量全体与LogitP的线性关系显著,模型拟合正确。 * 注:likelihood ratio tests提供了分别针对每个自变量作用进行的似然比检验。因pa,故认为自变量对模型的作用

您可能关注的文档

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档