Logistic回归分析zxl.PPT

下载文档 降价啦

35
0
约6.45千字
约 59页
2018-04-26 发布于天津
举报
版权申诉
保障服务

Logistic回归分析zxl.PPT

1、本文档共59页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Logistic回归分析zxl

注：在保存变量中一般最关心概率的预测值和类别的预测值。一般以0.5为分割点，预测概率大于0.5，预测为Y=1；预测概率小于0.5，预测为Y=0。 * 注：因变量和哑变量的编码是非常重要的信息，对于模型参数的解读和模型的分析都非常中重要。 * 注：初始模型，一般从全模型开始。Age没有通过检验，income这一类变量通过了，但是其中某一个哑变量没有通过，经验做法是这一类哑变量全部保留。 * 注：模型整体的线性通过检验，但是拟合指标显示，模型的拟合程度并不好。Logistic回归模型的参数估计值是采用迭代算法获得，因此需要迭代收敛。 * 注：因为pa，所以认为样本实际值得到的分布与预测值得到的分布无显著差异，模型拟合优度较好。 * 注：模型整体的准确度不高，对不购买人群的准确率极高，对购买人群的准确率很低。 * 注：预测类别图上可以看出，预测概率在0.4附近的样本预测准确率相对最低。事实上，无论用什么分类方法，这类样本身就是最难预测的。 * 注：这是采用向前LR的筛选策略进行变量选择。目前保存在模型中的变量都是通过了参数的显著性检验。 * 注：从拟合效果看，前后两个模型并没有太大差别。 * 注：虽然模型整体的准确度略有下降，但是对于购买人群预测的准确率提高了。从应用角度看第二个模型较第一模型的应用性略强些。 * 模型评价：模型表达式，并结合发生比，得知：相同性别中，中等收入的发生比是低等收入的1.101倍，高等收入的发生比是低等收入的2.139倍，可见中等收入的购买概率优势不明显，高等收入优势明显。相同收入中，女性的发生比是男性的1.656倍，女性更倾向于购买该产品。 * 9.3 多项Logistic回归分析当被解释变量为多分类变量时（分类数2)，且类别之间是无序的，则应采用多项Logistic回归分析，也称为广义Logit模型。研究目的：分析被解释变量各类别与参照类别的对比情况，即其中为被解释变量为第j类的概率，为别解释变量为第J（J为参照类）类的概率。如果被解释变量有 * K个类别，则需要建立K-1个模型。例如：设被解释变量有A，B，C三个类别，且以C为类别做参考，则应该建立两个广义Logit模型： * 注1：因，故，如果利用该模型做分类预测，则将样本的类别判为概率相对最大的一类。注2：如果想比较A和B，则直接将即可以获得相应的函数。注3：显而易见，针对无序多分类结果的另一种常用分析方法是判别分析，它和多项Logistic回归模型既有联系也有区别，在应用上判别分析重在预测，而多项Logistic回归模型则更关心的是发现影响因素。 * 应用举例例：研究不同学校（school）和不同课程计划（program）对学生学习方式偏好（style）的影响。注：原始数据和频数方式存放都可以。但是，频数方式不要忘记对“频数”加权 * 注：多项Logistic模型的参数和检验与二项Logistic模型有很多类似之处，在举例时注重列举二者的区别之处。 * 被解释变量分类自变量连续自变量注：在model中安默认选择即可，Main effects表示只分析自变量的主效应，不分析它们的交互作用。 * 注：Iterations用于设置模型收敛标准，Delta框中输入一个0-1之间的数，系统会用该数值代替频数为0的单元格的频数值，这样可以使模型拟合比较稳定。 * 注：关于变量筛选的准则。 * 注：用于选择模型的一些统计量，已经勾出常规建议选项，下面逐一解释每个选择的输出。 * 注：case processing summary提供输出各分类变量的边缘分布。 * 注：Pseudo R-square提供模型拟合优度指标“伪决定系数”，都反映的是方程对被解释变量变差解释程度的反映。通常这三个值都不会很大，N越接近1越好，M在0.3-0.5之间则说明拟合很好了。一般，在Logistic模型分析中不太关心它们的大小。 McFadden统计量= * 注：Model fitting information提供了回归方程整体显著性检验结果。因pa，故拒绝原假设，说明解释变量全体与LogitP的线性关系显著，模型拟合正确。 * 注：likelihood ratio tests提供了分别针对每个自变量作用进行的似然比检验。因pa，故认为自变量对模型的作用