基于虚拟技术中logistic回归模型在睡眠客户预测中应用.docVIP

基于虚拟技术中logistic回归模型在睡眠客户预测中应用.doc

此“医疗卫生”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于虚拟技术中logistic回归模型在睡眠客户预测中应用

基于虚拟技术中logistic回归模型在睡眠客户预测中应用   摘要:企业的客户关系管理工作好坏,直接影响到企业的核心竞争力,发现一个潜在的客户,往往比挽留一个客户所花费的成本要大的多,因此,发现睡眠用户,并做好相应的客户关怀,挽留住即将流失的客户,就显得非常重要。论文利用logistic回归模型,建立客户睡眠客户的预测模型,建模步骤分为变量分析、变量变换、模型建立评估。从实验分析和结果上看,模型效果拟合较好,评价logistic回归模型结果好坏的ROC、KS曲线验证了该方法的可行性和有效性,为睡眠用户的预测提供了一种分析的思路和方法。   关键词:睡眠客户 预测模型 logistic回归模型   中图分类号:F123.9 文献标识码:A 文章编号:1007-9416(2016)08-0069-02   1 引言   睡眠用户的定义和模型目标变量的选定息息相关,而目标变量是用模型确定业务问题的模型解释,这个过程本身就是业务问题转化统计模型问题过程。鉴于睡眠用户定义的重要性,睡眠用户的直接表现是停止交易,所以最后一次交易到无交易的时间是一个比较合理定义。为此从统计用户两次之间交易间隔来确定睡眠用户的定义。统计用户的最大交易间隔天数分布情况,从图1中可以看出,到当用户最大交易间隔天数在90天后,用户的最大交易间隔分布下降平缓,而且70%以上的用户的最大交易间隔小于等于90天。   发现睡眠客户对于企业的客户管理工作非常重要,论文采用logistic回归模型对睡眠客户进行分析,发现睡眠客户的特征,进而改善客户关系管理工作,提升客户价值。   2 数据处理   2.1 数据来源   论文数据来自于某第三方支付平台历史交易数据,对一些涉及商业机密的数据,如交易金额等进行线性变换,对用户个人隐私信息进行剔除。   2.2 数据预处理   在建立模型之前,对重复数据进行了预处理。首先从业务的角度上,对用户的交易是主动性交易与被动性交易进行整理,从业务的角度上理解主动交易更能反映用户的行为,所以数据删除被动交易记录。对文本字段转换成数值字段,时间字段转换成标准时间格式,即数据处理中截取、清洗、转换。   2.3 确定高价值客户   从业务的角度上,历史活跃度很低的用户,对企业的认可度可能更小,对这样的用户营销收益不高。所以建立模型时,要考虑确定什么样的用户是高价值用户。高价值的用户有一定的活跃度,而活跃度主要表现在交易次数上。而为了确定有价值用户的规则,筛选出在历史交易时期没有睡眠的用户,计算这些用户在6个月中的历史交易情况,并对整体用户的分布趋势进行汇总统计分析,数据处理结果如表1所示。   3 logistic回归模型在睡眠客户预测中的应用与分析   3.1变量选取   对于本次建立的睡眠用户,预测模型的变量选取,主要是客户属性变量与客户交易行为变量。其中客户属性变量有:CUSTOMER_NO,用户实名等级,注册时间;客户交易行为变量有:交易金额,交易类型,交易时间,每次交易前余额,每次交易后余额,交易类型(涉及商业机密数据,所以将金额数据进行线性变换处理),还有一些衍生变量。   3.2 变量处理   原始数据繁杂冗余,不能直接用于建模。数据处理过程包括缺失处理、变量类型转换、日期型变量处理、错误变量处理、异常值处理、相关性变量处理、变量选择。其中缺失值处理的方法是,当交易数据为缺失时,用零来代替,代表没有发生交易,是一个合理的解释。所以,本文的原始变量缺失则用零代替。变量的删减的方法是,删除变量是一个非常慎重的问题,但是若是存在较强相关性的情况下,logistic 回归结果是不满意的。因为变量过多,一次性进行变量相关性分析结果,显得过于繁杂,不利于找出其中的规律。为此,先进行变量重要性分析,将变量相关性分成两阶段进行。第一个阶段,先分析三个维度中变量的相关性分析。第二阶段,在完成第一阶段分析之后,剩余的变量全在一起分析变量相关性。   3.3 模型建立   按上面的分析,对变量进行选取及变量的处理后,进入建模阶段。实验所选变量主要体现用户交易行为变化、最近交易行为、用户身份特征来拟合用户是否会进入睡眠状态。将整理好的数据按50%比例随机抽样,分别得到训练集和测试集。实验模型是基于SAS软件中的PROC LOGISTIC过程来实现的。选取逐步回归估计的方式,模型估计结果如表2所示。logistic 回归分析的极大似然估计分析,如表3所示。   3.4 模型评估   评价logistic回归模型结果好坏,主要有K-S曲线、ROC曲线等方法,图2、图3是本次实验所建立模型的K-S曲线、ROC曲线。ROC 曲线横坐标为(1-特异度),纵坐标为灵敏度。特异度是实际上属于非目标事件的观测中被正确分类的

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档