数据挖掘知识.pptx

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘知识

数据挖掘基本知识与算法介绍;目录;什么是数据挖掘?;数据挖掘的理解;统计学与数据挖掘的区别;怎么做数据挖掘?;2014年6月17日10时36分;数据挖掘过程中的数据预处理;几类基本的挖掘算法;分类(有监督的学习过程,根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据);常用的分类方法——决策树归纳;2014年6月17日10时36分;决策树示意;常用的分类方法——贝叶斯分类;2014年6月17日10时36分;常用的分类方法——神经网络;2014年6月17日10时36分;2014年6月17日10时36分;2014年6月17日10时36分;其他的分类方法;提高分类法的准确性;2014年6月17日10时36分; 预 测 注:预测是构造和使用模型评估给定样本可能具有的属性或值空间. ;回归分析;分类 VS 预测;聚类 (无监督学习过程,把一个给定的数据对象集合分成不同的簇);聚类分析方法 划分方法(Partitioning Methods) 层次方法 基于密度的方法 基于网格的方法 基于模型(Model-Based)的聚类方法;1.划分法(partitioning methods): 给定一个有 N 个元组或者纪录的数据集,将构造 K 个分组,每一个分组就代表一个聚类,KN。而且这 K 个分组满足下列条件: (1)每一个分组至少包含一个数据纪录; (2)每一个数据纪录属于且仅属于一个分组; 对于给定的 K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的 纪录越远越好。 使用这个基本思想的算法有:K-MEANS 算法、K-MEDOIDS 算法; ; ;2014年6月17日10时36分;2. 层次法(hierarchical methods):这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。 代表算法有:TwoStep???算法、CURE 算法、CHAMELEON 算法等; ;3. 基于密度的方法(density-based methods):基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。代表算法有:DBSCAN 算法、OPTICS 算法、DENCLUE 算法等; 4. 基于网格的方法(grid-based methods):这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据 空间分为 多少个单元有关。代表算法有:STING 算法、 CLIQUE 算法、WAVE-CLUSTER 算法; 5. 基于模型的方法(model-based methods):基于模型的方法给每一个聚类假定一个模型,然后去寻找一个很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向:统计的方案和神经网络的方案 ;关联规则;支持度:Support(A=B)=#AB/#N,表示A和B同时出现的概率。 期望可信度:Support(B)=#A/#N,表示B出现的概率。 置信度:Confidence(A=B)=Support(A=B)/Support(A) 改善度:Lift(A=B)=Confidence(A=B)/Support(B);发现具有最小置信度和支持度的全部规则 X ^ Y ? Z 支持度(support), s, 事务中包含{X Y Z}的概率 置信度(confidence), c, 事务中包含{X Y}的条件下, 包含Z的条件概率;关联规则的应用;关联规则的算法;数据挖掘的工具有哪些?;数据挖掘应用;数据挖掘在通信行业的应用实例1;数据挖掘在通信行业的应用实例2;移动数据挖掘应用;2014年6月17日10时36分;2014年6月17日10时36分;2014年6月17日10时36分;2014年6月17日10时36分;2014年6月17日10时36分;2014年6月17日10时36分;SPSS 分析案例1——分类(决策树);模型

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档