网站大量收购独家精品文档,联系QQ:2885784924

第10章数据挖掘与客户关系管理案例.ppt

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第9章 数据挖掘与客户关系管理 案例 卓越亚马逊的推荐系统 学习目标 通过本章的学习,将能够: 理解数据挖掘的含义 熟悉数据挖掘的功能 熟悉数据挖掘的主要技术 掌握数据挖掘的业务流程 了解客户关系管理对数据挖掘的需求 理解数据挖掘在客户关系管理中的作用 数据挖掘的特点 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识 数据挖掘所得到的信息应具有先未知、有效和可实用三个特征 数据源必须是大量的、真实的、有噪声的 发现的是用户感兴趣的知识 发现的知识要可接受、可理解、可运用 并不要求发现放之四海皆准的知识,仅支持特定的发现问题 案例: Bell Atlantic公司 Bell Atlantic的数据挖掘系统非常成功,不仅为他们的业务开展带来很大的方便,而且节省了许多开支。Bell Atlantic的电话服务目前已经覆盖了美国14个州,拥有商业电话、住家电话帐户近亿个。 Bell Atlantic 数据挖掘系统的首要任务就是尽快地追收拖欠的电话费,同时尽量减少收债部门的成本。 案例: Bell Atlantic公司 软件系统的选择非常重要。经过反复挑选后,Bell Atlantic采用了SAS统计软件系统建立数据挖掘系统,然后在SAS环境中利用SAS宏程序建立挖掘系统。 然后是建立SAS格式库。许多数据需要格式化,比如年龄,可以从20到100岁,需要分成不同的组,这都需要利用模式来进行数据转换。有的数据不是连续变量,比如婚姻状况(单身/已婚),也需要进行一些变换才可以进行计算。日期也是需要模式化的,不同计算机系统记录日期方法不同,需要把日期转换成一致的方法。在金融保险行业日期这个变量非常重要,因为很多客户的行为都记录在日期里面了。电话公司里记帐、付款的日期也非常重要。 案例: Bell Atlantic公司 第三步的数据分析,把 Bell Atlantic 覆盖的14个州分成了6组,商业帐户和居民帐户分开,然后又对不同的帐户进一步分成了8个类型,前前后后一共建立了近40个不同的追收拖欠电话费的模型。这个项目Bell Atlantic花费了一百多万美元。 这样,Bell Atlantic就能计算出有关客户的概率可能性,包括客户从一个月未交电话费到两个月未交的可能性;客户从三个月未交电话费到变成坏债的可能性,以及坏债客户变成死债客户的可能性。同时,还对追交拖欠电话费用的策略提供线索,确认哪些帐户应该进行追债活动;哪些帐户有可能拖欠电话费;并且提供量化的追债策略,对不同的帐户采用不同的办法。 Q A ——决策树(DecisionTree):例 信用卡促销数据库 19 F Yes Yes 2-3万 55 M No No 4-5万 39 F No Yes 5-6万 29 F No Yes 2-3万 43 M No Yes 4-5万 41 F No Yes 3-4万 43 F No No 3-4万 27 M No No 2-3万 35 M Yes Yes 3-4万 55 F No No 2-3万 38 F No Yes 5-6万 43 M Yes Yes 3-4万 42 M No No 4-5万 40 F No Yes 3-4万 45 M No No 4-5万 年龄 性别 信用卡保险 寿险促销 收入段 信用卡保险 Yes(5/2) No(4/1) No Yes 性 别 F M Yes(3/0) 信用卡数据库的两节点决策树 ○训练集分类的正确性为12/15=80% 数据挖掘方法 ——决策树(Decision Tree):例 信用卡促销数据库检验集 错误 29 M No Yes 2-3万 正确 43 M No No 3-4万 正确 27 M No No 2-3万 正确 42 M No No 4-5万 检验结果 年龄 性别 信用卡保险 寿险促销 收入段 年 龄 Yes(6/1) No(2/1) ≤43 >43 性 别 F M 信用卡保险 Yes(2/0) No(3/0) No Yes 信用卡数据库的三节点决策树 数据挖掘方法 ●现代方法 ——K-平均值算法 K-平均值算法是一种简单而有效的无指导学习的统计聚类方法,将一组数据划分为不相关的簇 算 法 步 骤 ○选择一个K值,用以确定簇的总数 ○在数据集中任意选择K个数据实例,作为初始的簇中心 ○试用简单的欧氏距离将其它数据实例赋予距离它们最近的簇中心 ○试用每个簇中的数据实例,计算每个簇的新的平均值 ○如果新的平均值等于次迭代的平均值,终止该过程。否则,用新平均值作为簇中心并重复步骤3-5。 点A(x1,y1)与点B(x2,y2)之间的欧氏距离计算式为 数据挖掘方法 K-平均值算法

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档