基于虚拟技术中logistic回归模型在睡眠客户预测中应用.docVIP

下载本文档

4
0
约3.24千字
约 7页
2018-08-30 发布于福建
举报
版权申诉

基于虚拟技术中logistic回归模型在睡眠客户预测中应用.doc

此“医疗卫生”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于虚拟技术中logistic回归模型在睡眠客户预测中应用

基于虚拟技术中logistic回归模型在睡眠客户预测中应用　　摘要：企业的客户关系管理工作好坏，直接影响到企业的核心竞争力，发现一个潜在的客户，往往比挽留一个客户所花费的成本要大的多，因此，发现睡眠用户，并做好相应的客户关怀，挽留住即将流失的客户，就显得非常重要。论文利用logistic回归模型，建立客户睡眠客户的预测模型，建模步骤分为变量分析、变量变换、模型建立评估。从实验分析和结果上看，模型效果拟合较好，评价logistic回归模型结果好坏的ROC、KS曲线验证了该方法的可行性和有效性，为睡眠用户的预测提供了一种分析的思路和方法。　　关键词：睡眠客户预测模型 logistic回归模型　　中图分类号：F123.9 文献标识码：A 文章编号：1007-9416（2016）08-0069-02 　　1 引言　　睡眠用户的定义和模型目标变量的选定息息相关，而目标变量是用模型确定业务问题的模型解释，这个过程本身就是业务问题转化统计模型问题过程。鉴于睡眠用户定义的重要性，睡眠用户的直接表现是停止交易，所以最后一次交易到无交易的时间是一个比较合理定义。为此从统计用户两次之间交易间隔来确定睡眠用户的定义。统计用户的最大交易间隔天数分布情况，从图1中可以看出，到当用户最大交易间隔天数在90天后，用户的最大交易间隔分布下降平缓，而且70%以上的用户的最大交易间隔小于等于90天。　　发现睡眠客户对于企业的客户管理工作非常重要，论文采用logistic回归模型对睡眠客户进行分析，发现睡眠客户的特征，进而改善客户关系管理工作，提升客户价值。　　2 数据处理　　2.1 数据来源　　论文数据来自于某第三方支付平台历史交易数据，对一些涉及商业机密的数据，如交易金额等进行线性变换，对用户个人隐私信息进行剔除。　　2.2 数据预处理　　在建立模型之前，对重复数据进行了预处理。首先从业务的角度上，对用户的交易是主动性交易与被动性交易进行整理，从业务的角度上理解主动交易更能反映用户的行为，所以数据删除被动交易记录。对文本字段转换成数值字段，时间字段转换成标准时间格式，即数据处理中截取、清洗、转换。　　2.3 确定高价值客户　　从业务的角度上，历史活跃度很低的用户，对企业的认可度可能更小，对这样的用户营销收益不高。所以建立模型时，要考虑确定什么样的用户是高价值用户。高价值的用户有一定的活跃度，而活跃度主要表现在交易次数上。而为了确定有价值用户的规则，筛选出在历史交易时期没有睡眠的用户，计算这些用户在6个月中的历史交易情况，并对整体用户的分布趋势进行汇总统计分析，数据处理结果如表1所示。　　3 logistic回归模型在睡眠客户预测中的应用与分析　　3.1变量选取　　对于本次建立的睡眠用户，预测模型的变量选取，主要是客户属性变量与客户交易行为变量。其中客户属性变量有：CUSTOMER_NO，用户实名等级，注册时间；客户交易行为变量有：交易金额，交易类型，交易时间，每次交易前余额，每次交易后余额，交易类型（涉及商业机密数据，所以将金额数据进行线性变换处理），还有一些衍生变量。　　3.2 变量处理　　原始数据繁杂冗余，不能直接用于建模。数据处理过程包括缺失处理、变量类型转换、日期型变量处理、错误变量处理、异常值处理、相关性变量处理、变量选择。其中缺失值处理的方法是，当交易数据为缺失时，用零来代替，代表没有发生交易，是一个合理的解释。所以，本文的原始变量缺失则用零代替。变量的删减的方法是，删除变量是一个非常慎重的问题，但是若是存在较强相关性的情况下，logistic 回归结果是不满意的。因为变量过多，一次性进行变量相关性分析结果，显得过于繁杂，不利于找出其中的规律。为此，先进行变量重要性分析，将变量相关性分成两阶段进行。第一个阶段，先分析三个维度中变量的相关性分析。第二阶段，在完成第一阶段分析之后，剩余的变量全在一起分析变量相关性。　　3.3 模型建立　　按上面的分析，对变量进行选取及变量的处理后，进入建模阶段。实验所选变量主要体现用户交易行为变化、最近交易行为、用户身份特征来拟合用户是否会进入睡眠状态。将整理好的数据按50%比例随机抽样，分别得到训练集和测试集。实验模型是基于SAS软件中的PROC LOGISTIC过程来实现的。选取逐步回归估计的方式，模型估计结果如表2所示。logistic 回归分析的极大似然估计分析，如表3所示。　　3.4 模型评估　　评价logistic回归模型结果好坏，主要有K-S曲线、ROC曲线等方法，图2、图3是本次实验所建立模型的K-S曲线、ROC曲线。ROC 曲线横坐标为（1-特异度），纵坐标为灵敏度。特异度是实际上属于非目标事件的观测中被正确分类的