- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Clementine自带实例_电信客户流失二项式Logistic回归
电信客户流失(二项式Logistic回归) 译者注:Logistic regression应该翻译成Logistic回归,而非逻辑回归,因为本身跟逻辑没有什么关系 本文档翻译自Clementine的自带应用程序实例,错漏在所难免,有问题请e-mail,欢迎粉我微博 e-mail:973599102@ 微博:/datafish 说明 logistic回归是一种基于输入值的记录分类统计技术。它跟线性回归相似但用分类目标字段替换数字字段。 使用的流文件%clementine%\demo\Classification_Module\telco_churn.str 使用的数据文件%clementine%\demo\telco.sav 例如,假设电信提供商关心流失给竞争对手的客户数量。如果服务使用数据可以被用来预测哪些客户有流失到竞争对手的倾向,那么就可以实施相应的措施以挽留客户。 实例以客户使用数据预测客户的可能流失概率。因为目标是分成两类,所以选用二项式模型。在多目标分类的情况下,可以使用多项式模型代替。详见系列教程Clementine自带实例_多项式Logistic回归.ppt(百度文库有) 添加一个SPSS文件源节点,指向telco.sav 添加一个指向telco.sav的SPSS源文件节点 添加一个类型节点以定义字段,确保它们的类型都设置正确。例如,对于大多数只有0值和1值的字段来说应该被设为标志,但某些特定的字段,如性别,应该被更精确的视为双值集合。 小技巧:要改变多个字段的类型,点击“值”字段排序,按下shift键对您要改变的字段进行多选。可右击选择的字段改变选择字段的类型或者属性。 添加一个特征选择节点到类型节点并执行 使用特征选择节点可以去掉跟预测目标无关的协变量 从生成菜单中选择过滤器以生成过滤节点 不是所有telco.sav中的数据都对预测流失有用。您可以使用过滤器选择那些重要性比较强的因子 在生成过滤器的对话框中,选择“所有标记的字段:重要”,点击确定 把生成的过滤节点连接到类型节点 连接数据审核节点到生成的过滤节点并执行 在数据审核浏览器的质量标签中,单击%完成标题进行升序排序。这让您能识别出有大量缺失值的字段;在本例中,我们仅需修正字段logtoll,它的缺失值大于50% 在缺失插补中,为logtoll选择指定 在插补时间一栏,选择空值与无效值,已固定为一栏选择平均值 在数据审计浏览器的质量节点,生成缺失值超节点 在缺失值超节点对话框中,增加样本数量至50%,确定,生成超节点到面板中,添加超节点到过滤节点。 添加Logistic节点到超节点 在Logistic节点中,点击模型标签并选择二项式方法选择前进法 在专家标签中,选择专家模式,点击输出 选择每一个步骤和参数估计 执行Logistic节点生成模型,模型生成在右上角的面板上,右击选择浏览 汇总标签展示了模型使用的目标字段和输入字段(预测字段/协变量)。我们看到这些都是被前进法选入的字段,而不是所有的被提交的字段。 在高级标签展示的项目,依赖于建模节点中高级输出对话框所选 有一项总会出现在案例处理过程摘要,那就是落在某分类的记录条数以及比例。另外,还列出了缺失(如果有的话)数量,那些一个或多个输入字段不可用且未被选中 向下滚动到分类表 前进法由空模型(无协变量,看作基础模型,用于与最终模型比较)开始。空模型把所有的记录都预测为0,所以空模型有72.6%的准确率,因为726名客户没有流失。但是那些流失的客户一个都没预测正确 往下拖到分类表(a) 分类表展示了每次每个协变量加入模型后的结果。我们看到,第一步加入了一个协变量后,流失的预测比例从0提升至29.9% 滚动到分类表的底部 分类表展示的最后一步即为第8步。在这步算法决定不再往模型加入更多的协变量。尽管预测未流失客户的精度有一点下降,至91.2%,但预测流失的客户从最初的0上升至47.1%。相对于没有使用任何协变量的基准模型来说,是显著的提高。 对于想减少客户流失的电信营运商来讲,若能减少一半的流失,将是保有自身收入流的一大步。 本例还展示了如何考虑模型精确度的问题。有些案例中,整体精确度是会误导人的。基准模型有72.6%的精确度,而最终模型的精确度只提高到了79.1%;但是,如我们所见,单个类别的预测精度都得到了极大改变。 要知道模型对数据拟合的怎么样,在建模节点的专家-输出里面有一些选项可以使用。欲知详情可查看帮助文件里的Logistic Model Nugget Advanced Output。Clementine中建模用到的数学方法可以在Documentation目录的Clementine Algorithm Guide.pdf中查到。 我们注意到这些结果仅仅是基于训练数据的。要知道模型
文档评论(0)