SPSSModeler预测电信客户流失案例.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Modeler 帮助电信运营商预测客户流失案例 本文主要通过运用 IBM SPSS Modeler 中 C5.0 节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果 引言 目前电信运营商面临着激烈的市场竞争。对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。可以说,未来的电信行业,得客户者得天下。 数据挖掘在电信领域有着广泛的应用:计费分析、客户细分、电话欺诈、客户流失预警分析等等。客户流失预警分析是通过数据挖掘,发现和分析出客户的许多属性特性和行为特征,从而找到流失客户的特征,为企业挽留这类客户提供决策参考。 本文主要通过运用 IBM SPS Modeler 中 C5.0 节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果。 数据准备 读入数据源 读入电信客户数据,数据有多达 42 个字段,其中包含一些客户个人信息,例如年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别, 还包含一些客户使用电信服务信息,例如使用电信服务时间,是否开通无线服务,是否开通语音信箱服务,是否开通亲情号服务,以及上月基本话费,上月长话费,上月上网费,累计基本话费,累计长话费,累计上网费等等。将流失字段 churn 角色设置为目标。将所有其他字段的角色设置为输入。 图 1. 数据源 由于数据包括多达 42 个字段,我们将先进行数据准备阶段。数据准备是数据挖掘最重要的阶段之一,通常需要花费大量的时间。据估计,实际的数据准备工作通常占 50-70% 的工程时间和工作量。在前期的业务理解和数据理解阶段投入足够的精力可以将对这一阶段的投入降至最低,但您仍需花费大量的精力在建模前做数据准备工作。 利用 “特征选择 ”节点删除无用字段 首先通过使用 “特征选择 ”节点,删去不能为预测变量 / 目标之间的关系添 加任何有用信息的预测变量或数据。将数据源节点链接到 “特征选择 ”节点,双 击打开 “特征选择 ”节点。 图 2. 设置选择 可以看到用户可以选择定义缺失值最大百分比,单个类别中记录的最大百分比,作为记录百分比的最大类别数,最小变异系数,最小标准差,来进行数 据选择。这里保持默认设置,运行流。打开生成的模型块如下 ; 图 3. 模型块 ,3 个字段分别由于单个类别过大,缺失值过多以及变异系数低于阈值而 不会被选定作为输入字段。让我们进一步解释一下。单个类别中的记录最大百分比筛选相对于记录总数而言,同个类别中具有过多记录的字段。例如,如果数据库中 95% 的客户开同一类型的车,则此信息无助于区分客户。任何超过 指定最大值的字段都将被筛选掉。我们通过图形看一下 retire 字段。选择 “分布 ”节点连接到读入数据的数据源节点,选择 retire 字段,运行流。可以看到 retire 字段中,确实有 95.3% 的人都是未退休的人。此信息无助于区分客户。 图 4. 退休情况图 字段 logwire 由于缺失值的最大百分比超过 “特征选择 ”节点中定义的 70% 而被筛选出。显而易见,具有过多缺失值的字段,几乎不提供任何预测信息。 我们先直观的用 “表 ”节点来观察一下这个字段,可以看到字段中确实有许多值是缺失的 $null$ 值。 图 5.logwire 那么到底缺失比率到底是多少呢,我们用 “数据审核 ”节点来看一下具体的统计分析值。将 “数据审核 ”节点连接到读入数据的数据源节点,选择 logwire 字段,运行流。可以看到 logwire 的有效数据是 296 条,相对于总的 1000 条数据,它的缺失比率为 70.4%, 高于 “特征节点 ”定义的 70% 。 图 6. 数据审核情况 而 logequi 字段由于变异系数低于 “特征选择 ”节点中定义的最小变异系数 0.1 而被筛选掉。此度量值是输入字段标准偏差与输入字段均值之间的比值。 如果此值接近 0,则变量值的变异性就不高,则信息无助于区分客户。 利用 “特征选择 ”节点选择重要字段 除了这三个字段,我们还将滤除非重要性的字段。重要性是在建模之前在 “特征选择 ”节点中定义的,我们建模时使用的是它的默认值,这里重新打开 “特征选择 ”节点,到 “选项 ”选项卡。 图 7.

您可能关注的文档

文档评论(0)

183****9328 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档