- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第10章数据挖掘在电信业中的应用
10.3.1 商业理解 客户流失预测分析的主要商业目标就是要对有流失倾向的客户进行有选择性的挽留,从而减少客户流失率。通过建立流失预测模型挖掘出有潜在流失倾向的客户,并在此基础上结合客户细分的结果,将流失客户进行细分,找出流失倾向大的客户群体,然后根据挖掘结果帮助市场营销人员制定出具体的挽留策略和价值提升策略。 10.3.2 数据理解阶段 (1) 字 段 编 号 字 段 名 称 数 据 类 型 字 段 编 号 字 段 名 称 数 据 类 型 1 服务编号 Char(20) 10 产品 Char(30) 2 行业大类ID Char(30) 11 竣工时间 Number(8) 3 行业小类ID Char(30) 12 拆机类型 Number(8) 4 电话号码 Char(30) 13 通话级别 Char(30) 5 客户编号 Char(30) 14 状态 Char(8) 6 客户类型 Char(30) 15 套餐名称 Varchar 7 渠道 Char(30) 16 套餐生效时间 Number(8) 8 行业大类 Char(30) 17 套餐失效时间 Number(8) 9 行业小类 Char(30) 18 套餐竣工时间 Number(8) (1)客户基本特征:主要客户资料数据 客户基本特征数据是客户的静态数据。 10.3.2 数据理解阶段 (2) 字 段 编 号 字 段 名 称 字 段 名 称 数 据 类 型 1 Total_fee 月总费用 Number(8) 2 FEE1 月租费 Number(8) 3 Local_fee 本地通话费用 Number(8) 4 CK_D_fee 传统国内通话费用 Number(8) 5 CK_I_fee 传统国际通话费用 Number(8) 6 CK_GOT_fee 传统港澳台通话费用 Number(8) 7 IP_ CK_D_fee IP国内通话费用 Number(8) 8 IP_CK_I_fee IP国际通话费用 Number(8) 9 IP_CK_GOT_fee IP港澳台通话费用 Number(8) (2)客户行为特征:主要是客户的消费行为特征数据 每条记录包含了客户在一个年度内的消费行为数据,包括一年中每个月的总费用,月租费用、本地通话费、传统国内通话费用、传统国际通话费用、传统港澳台通话费用、IP国内通话费用、IP国际通话费用以及IP港澳台通话费用等9个基本消费行为特征。 10.3.2 数据理解阶段 (3) 字段编号 字段名称 字段名称 数据类型 1 Class 客户是否流失 Char(8) (3)客户类别特征 实验样本数据集中包含一个能够判定类别信息的类别特征,根据类别信息可知道每个样本的基本状态。 10.3.3 数据准备阶段 (1) (1)数据清洗 数据清洗的目的是补全数据、处理缺失值、除去噪声以及改正不协调的数据。例如在客户样本数据集中有些客户的套餐名称、套餐生效时间、套餐失效时间及套餐竣工时间等数据为空。在处理含有缺失值的特征时,如果有些特征的有效值少于总记录数据的1/5,则可删除此类特征;如果某记录中存在大量的空缺值,而这些空缺值难以以正常方法给予补全,则可以去除此类记录。 10.3.3 数据准备阶段 (2) (2)数据变换 数据转换主要包括构造新的衍生特征和对连续型数据进行规范化。在实验数据集中除了有表示客户类别信息的特征外(也是用其它方法赋值的),没有直接体现客户价值和客户流失倾向的特征。根据需要可以构造以下特征: 年度总费用:为一年内12个月的费用总和,表示为Year_total_fee。 月消费比率:指下一个月与上一个月的总费用比值。根据这一原理可构造11个月消费比率特征。用符号可表示为: 10.3.3 数据准备阶段 (3) (3)特征选择 经过数据清理和数据变换后,接下来就要进行特征选择。特征选择的效果会直接影响到分类预测模型的性能。 通过特征选择可以减少样本的维度,大大减少计算量,降低时间和空间复杂度,简化学习模型。例如该样本数据集中电话号码和客户编号的相关性很强,即存在冗余性,则可删除与目标特征相关性小的特征,即电话号码字段被删除掉。通过特征选择,服务编号、行业大类ID、行业小类ID、电话号码、竣工时间、拆机时间、60个原始消费行为特征及5个构造特征被删除。 10.3.4 建模阶段 (1) 图10-12 各簇年度消总费用平均值比较 (1)聚类分析 采用一趟聚类为客户细分的方法。在一趟聚类实验中,取聚类阈值r在[EX,EX+0.8*DX]中随机选取,得到聚类结果为:训练集被聚成17个簇,聚类精度为96.81%,其中簇大小占总样本比例超过1%的只有7个簇,其它10个簇占总样本数目都没有超过1%,相当于小簇。 在聚类结果中,17个簇的
您可能关注的文档
最近下载
- 人教版数学六年级上册第四单元《比》单元整体作业设计 (3).docx VIP
- 2025年水平定向钻市场调查报告.docx
- IPC J-STD-003D CN 中文目前最新版TOC.pdf VIP
- 2024年杭州钱塘新区产业发展集团有限公司下属公司招聘真题及答案详解(各地真题).docx VIP
- 飞机主动杆结构设计及控制策略研究.doc VIP
- 2024年世界职业院校技能大赛中职组“婴幼儿保育组”赛项考试题库-下(多选、判断题汇总).docx VIP
- 全新版大学英语第三册Unit 1 Changes in the way we live.ppt VIP
- CNAS-CL02-A006:2018 医学实验室质量和能力认可准则在输血医学领域的应用说明.pdf VIP
- xx集团粮食仓储及加工基地可行性研究报告.docx
- 2025医院药品不良反应培训.pptx VIP
文档评论(0)