第九章logistic回归分析(zxl).ppt.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九章logistic回归分析(zxl).ppt

注:初始模型,一般从全模型开始。Age没有通过检验,income这一类变量通过了,但是其中某一个哑变量没有通过,经验做法是这一类哑变量全部保留。 * 注:模型整体的线性没通过检验,但是拟合指标显示,模型的拟合程度并不好。Logistic回归模型的参数估计值是采用迭代算法获得,因此需要迭代收敛 * 注:因为p a,所以认为样本实际值得到的分布与预测值得到的分布无显著差异,模型拟合优度较好。 * 注:模型整体的准确度不高,对不购买人群的准确率极高,对购买人群的准确率很低。 * 注:预测类别图上可以看出,预测概率在0.4附近的样本预测准确率相对最低。事实上,无论用什么分类方法,这类样本身就是最难预测的。 * 注:这是采用向前LR的筛选策略进行变量选择。目前保存在模型中的变量都是通过了参数的显著性检验。 * 注:从拟合效果看,前后两个模型并没有太大差别。 * 注:虽然模型整体的准确度略有下降,但是对于购买人群预测的准确率提高了。从应用角度看第二个模型较第一模型的应用性略强些。 * 模型评价: 模型表达式,并结合发生比,得知:相同性别中,中等收入的发生比是低等收入的1.101倍,高等收入的发生比是低等收入的2.139倍,可见中等收入的购买概率优势不明显,高等收入优势明显。相同收入中,女性的发生比是男性的1.656倍,女性更倾向于购买该产品。 * * 第九章 Logistic回归分析 9.1Logistic回归分析概述 问题1:研究消费者的不同特征如何影响是否购买小轿车时,消费者的年龄、年收入、职业、性别等因素将作为解释变量,是否购买作为被解释变量,此时的被解释变量是一个二分类变量。 问题2:在研究消费者特征对某种商品的品牌选择取向时,品牌作为被解释变量,由于候选品牌多样,因此是一个多分类问题。 * 问题3:在流行病学的研究中,有一类常见问题是探索某疾病的危险因素,同时根据危险因素预测某疾病发生的概率。例如,想探讨胃癌发生的危险因素,选择两组人群,一组胃癌患者,另一组非胃癌患者,这形成了因变量。两组人群肯定有不同的体征和生活方式,自变量可以包括很多,例如:年龄、性别、饮食习惯、幽门螺杆菌感染等。 注:以上问题的共同点是因变量不是连续型变量,而是分类变量。 * 若因变量是被解释变量,则一般线性模型会出现以下问题: 对于任意给定的 值,残差 也变成了离散型变量,不是正态分布,因此导致无法进行相应的统计推断。 对于任意给定的 值,残差 也不再满足 即当被解释变量出现分类变量时,如果建立普通的回归模型会违背回归模型的前提假设。此时采用的建模 * 方法是Logistic回归分析。 * Logistic回归分析 二项Logistic回归分析: Y为二分类 多项Logistic回归分析: Y为多分类 1967年Truelt J,Connifield J和Kannel W在 《Journal of Chronic Disease》上发表了冠心病危险因素的研究,较早将Logistic回归用于医学研究。 * 9.2二项Logistic回归分析 二项Logistic回归方程: 设 ,称 为发生比(Odds)或相对风险,则定义 * 模型的评价: 二项Logistic回归模型很好的体现了概率P值和解释变量之间的非线性关系。 二项Logistic回归模型本质是一个二分类的线性概率模型。 通过模型计算P Y 1 和P Y 0 的概率,经过比较两个概率的大小,可以对样本进行类别预测。 * 发生比(相对风险,胜算,odds)的意义: Odds: 某事件发生概率与不发生概率之 比。 例如:考上大学的概率为0.25, 则考上大学的odds为0.25/0.75 0.3333:1 1:3,可以解释为考上与考不上之比为1:3 同理,可以计算考不上大学的odds为0.75/0.25 3:1,可以解释为考不上与考上之比为1:3 * 相对风险比(胜算比,odds ratio)的意义 0dds ratio:在自变量处于不同的水平时的胜算,加以比较(两个胜算的比值 ,称为胜算比。 例如:大公司成功经营的概率为10/11,小公司成功经营的概率为2/13, 则大公司成功经营的胜算为(10/11)/(1/11) 10 小公司成功经营的胜算为(2/13)/(11/13) 0.182 即Odds ratio 10/0.182 55, 即可以解释为大公司的成功胜算为小公司成功胜算的55倍。 * 二项Logistic回归方程系数的含义: 因为 , 当自变量 增加一个单位时,则有 于是: 即表明:当其它解释条件不变时, 增加一个单位时所导致的相对风险是原来相对风险的 倍。即控制其它变量不变时,x增加一个单位的相对风险比 即x在不同

文档评论(0)

75986597 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档