第九章logistic回归分析(zxl).ppt.pptVIP

下载本文档

20
0
约4.07千字
约 39页
2018-03-24 发布于天津
举报
版权申诉

第九章logistic回归分析(zxl).ppt.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第九章logistic回归分析(zxl).ppt

注：初始模型，一般从全模型开始。Age没有通过检验，income这一类变量通过了，但是其中某一个哑变量没有通过，经验做法是这一类哑变量全部保留。 * 注：模型整体的线性没通过检验，但是拟合指标显示，模型的拟合程度并不好。Logistic回归模型的参数估计值是采用迭代算法获得，因此需要迭代收敛 * 注：因为p a，所以认为样本实际值得到的分布与预测值得到的分布无显著差异，模型拟合优度较好。 * 注：模型整体的准确度不高，对不购买人群的准确率极高，对购买人群的准确率很低。 * 注：预测类别图上可以看出，预测概率在0.4附近的样本预测准确率相对最低。事实上，无论用什么分类方法，这类样本身就是最难预测的。 * 注：这是采用向前LR的筛选策略进行变量选择。目前保存在模型中的变量都是通过了参数的显著性检验。 * 注：从拟合效果看，前后两个模型并没有太大差别。 * 注：虽然模型整体的准确度略有下降，但是对于购买人群预测的准确率提高了。从应用角度看第二个模型较第一模型的应用性略强些。 * 模型评价：模型表达式，并结合发生比，得知：相同性别中，中等收入的发生比是低等收入的1.101倍，高等收入的发生比是低等收入的2.139倍，可见中等收入的购买概率优势不明显，高等收入优势明显。相同收入中，女性的发生比是男性的1.656倍，女性更倾向于购买该产品。 * * 第九章 Logistic回归分析 9.1Logistic回归分析概述问题1：研究消费者的不同特征如何影响是否购买小轿车时，消费者的年龄、年收入、职业、性别等因素将作为解释变量，是否购买作为被解释变量，此时的被解释变量是一个二分类变量。问题2：在研究消费者特征对某种商品的品牌选择取向时，品牌作为被解释变量，由于候选品牌多样，因此是一个多分类问题。 * 问题3：在流行病学的研究中，有一类常见问题是探索某疾病的危险因素，同时根据危险因素预测某疾病发生的概率。例如，想探讨胃癌发生的危险因素，选择两组人群，一组胃癌患者，另一组非胃癌患者，这形成了因变量。两组人群肯定有不同的体征和生活方式，自变量可以包括很多，例如：年龄、性别、饮食习惯、幽门螺杆菌感染等。注：以上问题的共同点是因变量不是连续型变量，而是分类变量。 * 若因变量是被解释变量，则一般线性模型会出现以下问题：对于任意给定的值，残差也变成了离散型变量，不是正态分布，因此导致无法进行相应的统计推断。对于任意给定的值，残差也不再满足即当被解释变量出现分类变量时，如果建立普通的回归模型会违背回归模型的前提假设。此时采用的建模 * 方法是Logistic回归分析。 * Logistic回归分析二项Logistic回归分析： Y为二分类多项Logistic回归分析： Y为多分类 1967年Truelt J，Connifield J和Kannel W在《Journal of Chronic Disease》上发表了冠心病危险因素的研究，较早将Logistic回归用于医学研究。 * 9.2二项Logistic回归分析二项Logistic回归方程：设，称为发生比（Odds）或相对风险，则定义 * 模型的评价：二项Logistic回归模型很好的体现了概率P值和解释变量之间的非线性关系。二项Logistic回归模型本质是一个二分类的线性概率模型。通过模型计算P Y 1 和P Y 0 的概率，经过比较两个概率的大小，可以对样本进行类别预测。 * 发生比（相对风险，胜算，odds）的意义： Odds：某事件发生概率与不发生概率之比。例如：考上大学的概率为0.25，则考上大学的odds为0.25/0.75 0.3333：1 1:3，可以解释为考上与考不上之比为1：3 同理，可以计算考不上大学的odds为0.75/0.25 3:1，可以解释为考不上与考上之比为1：3 * 相对风险比（胜算比，odds ratio）的意义 0dds ratio：在自变量处于不同的水平时的胜算，加以比较（两个胜算的比值，称为胜算比。例如：大公司成功经营的概率为10/11，小公司成功经营的概率为2/13，则大公司成功经营的胜算为（10/11）/（1/11） 10 小公司成功经营的胜算为（2/13）/（11/13） 0.182 即Odds ratio 10/0.182 55，即可以解释为大公司的成功胜算为小公司成功胜算的55倍。 * 二项Logistic回归方程系数的含义：因为，当自变量增加一个单位时，则有于是：即表明：当其它解释条件不变时，增加一个单位时所导致的相对风险是原来相对风险的倍。即控制其它变量不变时，x增加一个单位的相对风险比即x在不同