数据挖掘与Clementine使用培训(深圳电信).ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 练习2 应用data2分别应用神经网络模型、C5.0模型和CRT模型建立二值预测模型,再按照以上4中思路建立预测模型。对于test数据完成下表: 模型名称 总体准确率 模型命中率 模型覆盖率 把握程度与实际结果比较图 神经网络 C5.0 CRT 思路一 思路二 思路三 思路四 * 修正法之一——模型堆叠(stacking) 把模型的预测输出作为另外模型的输入 * 修正法之二——找出错误预测的规律(error modelling) 对于一个预测模型,我们能够发现错误预测的规律吗? 挑出那些错误的,建立模型(常常需要平衡数据) 缺点:有些记录会没有预测 * 修正法之三——多个模型一致(agreement modelling) 处理投票法一中的不确定值 多个模型预测一致的作为预测 对那些不一致的重新建立模型进行预测 Select node ‘$N-Outcome’ /== ‘$C-Outcome’ Derive node (type: conditional) If ‘$N-Outcome’ == ‘$C-Outcome’ Then ‘$N-Outcome’ Else ‘$N1-Outcome’ * 修正法之四——对模型建模 (speciallist modelling) 建立关于何时规则模型或神经网络模型预测准确的模型,得出模型的适用条件(数据情况) 根据数据情况选择使用不同的模型 * 练习3 对于数据集data1 to data5按照修正法思路1-思路4建立模型,对于数据集test完成下表: 模型名称 总体准确率 模型命中率 模型覆盖率 修正法思路一 修正法思路二 修正法思路三 修正法思路四 * 总结——提高二值预测效果的几种思路 离散问题向打分(scoring)问题的转化 投票法之一——多个模型一致 投票法之二——建立奇数个模型 投票法之三——更高把握程度原则 投票法之四——根据把握程度汇总进行投票 修正法之一——模型堆叠(stacking) 修正法之二——找出错误预测的规律 修正法之三——多个模型一致 修正法之四——对模型建模 * * 六、数据挖掘技术在电信行业中的应用 数据挖掘技术在电信行业中的应用 案例1:流失分析 案例2:流失症状与营销预演 案例3:交叉销售(套餐分析) * 客户生命周期理论—客户分析的基础 时间 收入 利润 损失 销售商品或服务 客户关系结束 认知 更少损失 更加有效的认知 利润 更多的利润 更加多的销售额 更加有效的认知 MORE PROFIT 利润 甚至更多利润 更长的客户关系 更加多的销售额 时间 利润 案例一 电信行业的流失分析 * 电信行业流失分析的数据挖掘模型 商业理解 文档 发布 “D” 流 Clementine Solutions Publisher 数据理解 “E” 流 数据探索 数据准备 “P” 流 建模和评估 “M” 流 * 客户流失分析之商业理解 移动通信业是一个竞争异常激烈的行业,对于移动通信运营商来说,如何对其客户进行有效的管理,尽可能的减少客户的流失和跳网是一个紧迫的问题。在这里我们将介绍数据挖掘在移动通信业关于客户流失研究中的应用。 数据挖掘技术将提供功能强大的模型,可以回答“哪些客户最可能流失?”和“为什么这些客户会流失?”等问题。 * 客户流失分析之商业理解 什么是流失,流失如何定义 连续欠费不交?号码长期不用?二分标记变量? 流失和哪些因素相关 顾客年龄?性别?收入?行业?话费水平?话务质量? 确定数据挖掘目标 (1)对客户进行聚类分析,寻找那些流失量比较大的客户群 (2)建立规则,描述那些易于流失的客户群的特征 (3)建立打分模型,对客户流失可能性(概率)进行评价 * 客户流失分析之数据理解 字段名称 字段含义 指标解释 Customer_ID 顾客ID Gender 性别 Age 年龄 Connect_Date 入网时间 顾客生命周期的开始,日期型 L_O_S 服务时间 服务顾客时间长 Dropped_Calls 掉线次数 在6个月内电话掉线次数 Pay Method 支付方式 话费支付方式——预交还是后付 tariff 话费类型 Churn 是否流失 二分标记变量,是或否 Handset 手机品牌 顾客信息资料 (共31769条记录,10个变量) * 客户流失分析之数据理

文档评论(0)

wwqqq + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档