crm第6章数据挖掘在crm中运用.ppt

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
crm第6章数据挖掘在crm中运用

数据挖掘概述 关联规则的发现 聚类分析 决策树分析 一、数据挖掘概述 数据挖掘常常与知识发现等同看待,对于数据挖掘(DM,Data Mining)和知识发现(KDD,Knowledge Discovery In Database)的确切定义一直在许多学者中相互混淆。有学者认为数据挖掘和知识发现是等价的概念,人工智能(AI)领域习惯称知识发现,而数据库领域习惯称数据挖掘 ,是从数据中发现隐含有用的信息或知识的技术。 1. 数据挖掘的定义 数据挖掘,就是应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识,这些知识或信息是隐含的、事先未知而潜在有用的,提取的知识表示为概念、规则、规律、模式等形式。 数据挖掘作为知识发现过程的一个特定步骤,它是一系列技术及应用,或者说是对大容量数据及数据间关系进行考察和建模的方法集。它的目标是将大容量数据转化为有用的知识和信息。 一般情况下,数据挖掘的对象定义为数据库,而更广义的说法是,数据挖掘意味着在一些事实或观察数据的集合中寻找模式。数据挖掘的对象不仅是数据库,也可以是文件系统或其他任何组织在一起的数据集合。 2 知识发现过程 2. 知识发现过程 3. 数据挖掘的任务 3. 数据挖掘的任务 3. 数据挖掘的任务 3. 数据挖掘的任务 3. 数据挖掘的任务 4. 数据挖掘的应用 二、关联规则的发现 1. 关联规则的描述 2. 关联规则的定义 3. 关联规则的应用 3. 关联规则的应用 3. 关联规则的应用 3. 关联规则的应用 3. 关联规则的应用 3. 关联规则的应用 三、聚类 1. 聚类的定义 2. 聚类的运用 2. 聚类的运用 2. 聚类的运用 3. 聚类分析应用举例 3. 聚类分析应用举例 3. 聚类分析应用举例 3. 聚类分析应用举例 3. 聚类分析应用举例 3. 聚类分析应用举例 3. 聚类分析应用举例 3. 聚类分析应用举例 3. 聚类分析应用举例 四、决策树分析 1. 决策树分析的含义 1. 决策树分析的含义 2. ID3学习算法 2. ID3学习算法 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 利用上述Clustering聚类算法进行分类,初始分类共分三类,随意地将职工A、B、C归于一类,职工D、E、F归于一类,职工G、H归于一类,初始隶属度为:,聚类过程如表(二)所示: j=1,2, …c. 聚类过程如表(二)所示: 表(二) 分类迭代隶属度表 从上面迭代隶属度表中可以看出,当迭代到第七次时,隶属度已经收敛(ε=0.05),从上表得出分类结果为:第一类{B,E},第二类{A,C,F,H},第三类{D,G},于是,可以得出职工B、E属于优等,职工A、C、F、H属于一般,职工D、G欠佳的结论 。 返回 决策树(decision tree)学习是以实例为基础的归纳学习算法。它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。所以从根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。基于决策树的学习算法的一个最大的优点就是它在学习过程中不需要使用者了解很多背景知识(这也同时是它最大的缺点),只要训练例子能够用属性结论式的方式表达出来,就能使用该算法来学习。 一棵决策树的内部结点是属性或属性的集合,叶结点是所要学习划分的类。当经过一批训练实例集的训练产生一棵决策树,决策树可以根据属性的取值对一个未知实例集进行分类。使用决策树对实例进行分类的时候,由树根开始对该对象的属性逐渐测试其值,并且顺着分支向下走,直至到达某个叶结点,此叶结点代表的类即为该对象所处的类。 ID3算法以信息熵的下降速度作为选取测试属性的标准的。信息熵的下降也就是信息不确定性的下降。 (1)自信息量。在收到ai之前,收信者对信源发出ai的不确定性定义为信息符号ai的自信息量I(ai)。即I(ai)=-log p(ai),其中p(ai)为信源发出ai的概率。 (2)信息熵。自信息量只能反映符号的不确定性,而信息熵可以用来度量整个信源X整体的不确定性,定义如下: (3)条件熵。如果信源X与随机变量Y不是相互独立的,收信者收到信息Y。那么,用条件熵H(X/Y)

文档评论(0)

shujukd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档