- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
·人工智能综合应用案例
10.1客户流失模型建立与评估
本应用案例使用InforStack大数据应用平台实现客户流失模型建立与评估。
10.1.1案例概述
本案例通过一个电信的例子来说明数据挖掘如何进行流失分析,采用数据挖掘的方法,建立客户流失预测
模型,预测客户流失的概率,根据概率值预测哪些客户(尤其是高价值客户)可能会流失,企业的营销人员可以针对流失客户群制定有效的市场挽留活动,可以为企业节省可观的成本,改善与客户的关系。
1.客户流失定义
在本案例中首先要思考的一个业务问题就是如何定义流失?流失是一个业务术语,该如何用数据表达它呢?
首先需要与业务人员讨论,客户状态有哪些种类?客户状态可以分为三类:
●不流失:正常使用电信业务的客户。
●自愿流失:主动放弃电信业务的客户,可能会去销号,也可能某一天不使用手机号,但不欠费(预付费)。
●非自愿流失:欠费被停机(后付费)。
进一步,可把业务定义关联到数据层面,即在数据表中对每个客户都给出标识1或者0,代表流失与不流失。数据库中并没有流失变量,这就需要将上文的讨论结果转换为逻辑规则,下面是客户流失的逻辑规则:;
1)以销户为标准:销户的客户标记为流失,否则为不流失。
2)以有无通话行为作为标准:若某一客户在3个月内未使用任何语音、数据业务则可定义为流失,否则为不流失,适合预付费用户。
3)以欠费为标准:例如欠费3个月以上的客户定义为流失,否则为不流失,此标准尤其适合后付费用户。
4)话费流失:例如客户连续3个月的话费平均比过去6个月的话费平均降低了70%以上,可以定义为流失,否则定义为不流失。这种客户不是真的离开,而是价值降低了。
这里将满足以上1)、2)和3)中任意一条的客户定义为流失,变量值标记为1,否则定义为不流失,变量值记为0。
2.时间窗口定义
进行流失分析的目的是预可能的流失测客户,而在业务系统中,客户行为是连续发生的,因此需要选择合适的
时间窗口。一般需要综合考虑数据的可获取性和有效性,以3~6个月的时间窗口为宜,本例以6个月作为时间窗口。可以考虑定义流失的时间窗口和定义自变量的窗口间隔一个月。再考虑到流失定义需要3个月的观察期,具体预测变量和目标变量的时间窗口如图10-1所示:
第1个月第2个月第3个月第4个月第5月第6个月第7个月第8个月第9个月第10个月
间隔
预测自变量时间窗口目标变量时间窗口;
变量名称;
变量名称;
10.1.3数据准备
从业务系统中取出的数据都是根据业务的需要考虑设计的,但往往不能达到取得良好数据挖掘结果的目的,这时需要对数据进行计算,生成相关的衍生变量。
为了更清晰地说明衍生变量的生成,把数据分成两类:一类是横截面数据,指某一时点上收集到的数据;另一类是时间序列数据,指按照时间顺序排列的数据,一条记录代表一个时间点或者时间段的取值,通常会有一个表示时间的变量,例如这个案例中客户通话情况表中month就是表示时间的变量,而6个月的高峰时期通话时长等都是时间序列数据。
1.横截面数据
对横截面数据的衍生变量来说有以下一些常用的生成衍生变量的方法:
(1)强度相对指标
强度相对指标是通过有一定联系的两个指标之间相比的结果得到的指标。例如,本案例中平均每次通话时长就是这种指标,它通过通话总时长和通话总次数两个指标相除,可了解到客户的通话习惯,是长话短说型,还是细致描述型。
(2)比例相对指标
它用来反映总体中各组成部分所占比例的一个指标。例如,本案例中高峰时期通话比例就是典型的比例相对指标,这个指标可以帮助了解客户的通话结构比例,是工作时间电话多,还是休闲时间电话多(假设定义工作时间为高峰,休闲时间为非高峰)。;
2.时间序列数据
对时间序列数据常用的生成衍生变量的方法:
(1)汇总类指标
在本案例中,同一个客户有6个月的数据,为了便于构建挖掘模型,需要把这6条数据汇总成一条数据,以便与是否流失相对应。汇总类指标有求和、平均值、最大值、最小值和标准差,还可以得到记录计数。
(2)趋势类指标
对于时间序列数据,一个重要的方面是看趋势。本案例特别关注每个客户的通话时长等指标的趋势,是变多,变少,还是随机波动?如果一个客户的通话时长趋势是变少,那么这个客户的流失可能性可能会变大。但是如何衡量趋势呢?可以建立变量与时间的回归模型(例如本案例中,自变量为月份,
因变量为通话时长),将自变量的回归系数作为趋势(也可以使用标化回归系数作为趋势),这个值大于0,则趋势是变多;这个
原创力文档


文档评论(0)