- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《charpter5数据挖掘与客户关系管理》.ppt
5. 数据挖掘与客户关系管理 hongxj@njupt.edu.cn 数据挖掘概述 数据挖掘的任务、技术与实施过程 数据挖掘在CRM中的应用 CRM数据挖掘案例 数据挖掘的定义 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 数据挖掘技术 数据挖掘的方法很多,大致可分为:统计方法、机器学习方法、神经网络方法和数据库方法。其中,统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。 决策树 决策树把数据归入可能对一个目标变量有不同效果的规则组。例如,我们希望发现可能会对直邮有反应的个人特点。这些特点可以解释为一组规则。 决策树 假设您是一个销售一种新的银行服务的直邮计划研究的负责人。为最大程度地获益,您希望确定基于前次促销活动的家庭细分最有可能响应相似的促销活动。通常这可以通过查找最能把响应前次促销的家庭和没有响应的家庭区分开的人口统计信息变量的组合来实现。 决策树为您提供诸如谁会最好地响应新的促销等重要线索,并通过只邮寄给最有可能响应的人来最大程度地获得直邮效益,提高整体响应率,并极有希望同时增加销售。 决策树图 决策树应用 决策树也是分析消耗(流线性生产)、发现交叉销售机会、进行促销、信用风险或破产分析和发觉欺诈行为的得力工具。 决策树算法 常用的算法有CHAID、 CART、 Quest 和C5.0。 决策树的优缺点: 优点: 1)??????? 可以生成可以理解的规则。 2)??????? 计算量相对来说不是很大。 3)??????? 可以处理连续和种类字段。 4)??????? 决策树可以清晰的显示哪些字段比较重要 缺点: 1)??????? 对连续性的字段比较难预测。 2)??????? 对有时间顺序的数据,需要很多预处理的工作。 3)??????? 当类别太多时,错误可能就会增加的比较快。 4)??????? 一般的算法分类的时候,只是根据一个字段来分类。 聚类分析 聚类如同通常所说的“物以类聚”,是把一组个体按照相似性归成若干类别。 它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。 通过聚类,数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们对客观现实的认识,是进行概念描述和偏差分析的先决条件。 聚类分析 簇(Cluster):一个数据对象的集合 在同一个类中,对象之间具有相似性; 不同类的对象之间是相异的。 聚类分析 把一个给定的数据对象集合分成不同的簇; 聚类是一种无监督分类法: 没有预先指定的类别; 典型的应用 作为一个独立的分析工具,用于了解数据的分布; 作为其它算法的一个数据预处理步骤; 应用聚类分析的例子 市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划; 土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区; 保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户; 城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅; 地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类; 聚类分析的评判 一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点: 高的簇内相似性 低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现; 聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式; 人工神经网络 神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题(当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂的多)。神经网络常用于两类问题:分类和回归。 人工神经网络 在使用神经网络进行数据挖掘时有几点需要注意: 神经网络很难解释 神经网络会学习过度 除非问题非常简单,训练一个神经网络可能需要相当可观的时间才能完成 建立神经网络需要做的数据准备工作量很大 遗传算法 遗传算法(Genetic
文档评论(0)