客户关系管理 - 数据挖掘及其在CRM.pptVIP

下载本文档

2
0
约9.25千字
约 39页
2018-06-23 发布于河南
举报
版权申诉

客户关系管理 - 数据挖掘及其在CRM.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

客户关系管理 - 数据挖掘及其在CRM

吕红波早期的数据库主要支持联机事务处理决策支持对数据分析的需求传统数据库系统不适宜DSS 事务处理和分析处理的性能特性不同数据集成问题数据动态集成问题历史数据问题数据的综合问题操作繁简问题 OLAP的分析方法 -钻取 8. 数据库到数据仓库在数据库应用的早期，计算机系统处理的是传统手工业务自动化的问题。联机事务处理(OLTP)成为整个80年代直到90年代初数据库应用的主流。当联机事务处理系统应用到一定阶段，单靠拥有联机事务处理系统已经不足以获得市场竞争的优势，于是出现了联机分析处理。数据仓库是一个作为决策支持系统和联机分析应用数据源的结构化数据环境，它研究和解决的问题就是从数据库中获取信息。 OLTP vs OLAP CRM的业务整合需要数据仓库数据清洁与集中需要数据仓库数据分析需要数据仓库客户行为分析重点客户发现个性化服务市场性能评估模式（pattern）用高级语言表示的表达一定逻辑含义的信息，这里通常指数据库中数据之间的逻辑关系。例如：在超市的商品销售数据库中，我们可以找到以下信息：男性顾客在购买婴儿尿布时也往往同时购买啤酒在购买面包和黄油的顾客中，大部分的人同时也买了牛奶置信度（confidence）知识在某一数据域上为真的量度。置信度涉及到许多因素，如数据的完整性、样本数据的大小、领域知识的支持程度等。没有足够的确定性，模式不能成为知识。例如：模式‘在购买面包和黄油(X)的顾客中，大部分的人同时也买了牛奶(Y)’的置信度为：支持度(Support) 同时购买X和Y的客户人数占总客户数的百分比称的支持度。兴趣度（interestingness）在一定数据域上为真的知识被用户关注的程度。知识（discovered knowledge）满足用户支持度和置信度的模式。有效性（effectiveness）知识的发现过程必须能够有效地在计算机上实现。非平凡性（nontrivial）能够以确定的计算过程提取的模式称为平凡知识。平凡的知识（如根据数据库中的薪水字段求得职员的平均薪水）不是数据挖掘的目标。在数据挖掘中，知识的发现过程都应具有某种不确定性和一定的自由度，也就是要发现不平凡的知识。关联规则用于表示OLTP数据库中诸多属性（项集）之间的关联程度。而关联规则挖掘（ Association Rules Mining）则是利用数据库中的大量数据通过关联算法寻找属性间的相关性。例：(超级市场)在购买商品A的客户中有90%的人会同时购买商品B，则可用关联规则表示为： A → B ………………… …………….…… 规则1 我们讲数据挖掘的结果要满足一定的置信度和兴趣度要求，在这里，用户对规则感兴趣的程度我们用规则的支持度来表示。规则1： A → B 支持度(Support) 同时购买A和B的客户人数占总客户数的百分比称为规则1的支持度。 Support(A → B) = Probability(A∩B) 置信度(Confidence) 同时购买A和B的客户人数占购买A的客户人数的百分比称为规则1的置信度。 Confidence(A → B) = Probability(B/A) = Probability(A ∩ B) / Probability(A) 如果不考虑关联规则的支持度和置信度，那么在事务数据库中存在无穷多的关联规则。事实上，人们一般只对满足一定的支持度和可信度的关联规则感兴趣。为了发现出有意义的关联规则，需要给定两个阈值：最小支持度和最小置信度。关联规则挖掘的实质是在OLTP数据库中寻找满足用户给定的最小支持度和最小置信度的规则。关联规则挖掘算法：The Apriori Algorithm Apriori算法的原理：项集（itemset）：在数据库中出现的属性值的集合。频繁项集（frequent itemset）：满足最小支持度要求的项集。关联规则一定是在满足用户的最小支持度要求的频繁项集中产生的，因此，关联规则挖掘也就是在数据库中寻找频繁项集的过程。在寻找频繁项集的过程中，我们遵循一条规则：每个频繁项集的任一子集必定也是一个频繁项集。假设最小支持度和最小置信度的要求均为50% 因此，在上述数据库中，我们能找到的关联规则只能是频繁项集（A，C）上的。规则1：A → C（支持度50%，置信度66.6%）规则2：C → A （支持度50%，置信度100%）假设最小支持度和最小置信度的要求均为50%(出现2次）数据收集进行建模对数据进行评分根据得分发现重点客户关联规则