- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘知识
数据挖掘基本知识与算法介绍;目录;什么是数据挖掘?;数据挖掘的理解;统计学与数据挖掘的区别;怎么做数据挖掘?;2014年6月17日10时36分;数据挖掘过程中的数据预处理;几类基本的挖掘算法;分类(有监督的学习过程,根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据);常用的分类方法——决策树归纳;2014年6月17日10时36分;决策树示意;常用的分类方法——贝叶斯分类;2014年6月17日10时36分;常用的分类方法——神经网络;2014年6月17日10时36分;2014年6月17日10时36分;2014年6月17日10时36分;其他的分类方法;提高分类法的准确性;2014年6月17日10时36分;预 测 注:预测是构造和使用模型评估给定样本可能具有的属性或值空间.;回归分析;分类 VS 预测;聚类 (无监督学习过程,把一个给定的数据对象集合分成不同的簇);聚类分析方法
划分方法(Partitioning Methods)
层次方法
基于密度的方法
基于网格的方法
基于模型(Model-Based)的聚类方法;1.划分法(partitioning methods):
给定一个有 N 个元组或者纪录的数据集,将构造 K 个分组,每一个分组就代表一个聚类,KN。而且这 K 个分组满足下列条件:
(1)每一个分组至少包含一个数据纪录;
(2)每一个数据纪录属于且仅属于一个分组;
对于给定的 K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的
纪录越远越好。
使用这个基本思想的算法有:K-MEANS 算法、K-MEDOIDS 算法;
;
;2014年6月17日10时36分;2. 层次法(hierarchical methods):这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。
代表算法有:TwoStep???算法、CURE 算法、CHAMELEON 算法等;
;3. 基于密度的方法(density-based methods):基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。代表算法有:DBSCAN 算法、OPTICS 算法、DENCLUE 算法等;
4. 基于网格的方法(grid-based methods):这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据 空间分为 多少个单元有关。代表算法有:STING 算法、 CLIQUE 算法、WAVE-CLUSTER 算法;
5. 基于模型的方法(model-based methods):基于模型的方法给每一个聚类假定一个模型,然后去寻找一个很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向:统计的方案和神经网络的方案
;关联规则;支持度:Support(A=B)=#AB/#N,表示A和B同时出现的概率。
期望可信度:Support(B)=#A/#N,表示B出现的概率。
置信度:Confidence(A=B)=Support(A=B)/Support(A)
改善度:Lift(A=B)=Confidence(A=B)/Support(B);发现具有最小置信度和支持度的全部规则 X ^ Y ? Z
支持度(support), s, 事务中包含{X Y Z}的概率
置信度(confidence), c, 事务中包含{X Y}的条件下, 包含Z的条件概率;关联规则的应用;关联规则的算法;数据挖掘的工具有哪些?;数据挖掘应用;数据挖掘在通信行业的应用实例1;数据挖掘在通信行业的应用实例2;移动数据挖掘应用;2014年6月17日10时36分;2014年6月17日10时36分;2014年6月17日10时36分;2014年6月17日10时36分;2014年6月17日10时36分;2014年6月17日10时36分;SPSS 分析案例1——分类(决策树);模型
您可能关注的文档
- 数学专业英语_数学表达式和数学用语的英文读法.doc
- 数学专业英语(只是部分,不是很完整).ppt
- 数学专业英语(吴炯圻-第2版)2-3.ppt
- 数学实验 Mathematic实验四 导数应用.doc
- 数学实验 Mathematic实验一 一元函数的图形.doc
- 数学实验 Mathematic实验九 无穷级数.doc
- 数学实验课件与习题答案 实验一一元函数的图形.doc
- 数字集成电路设计 第二章VLSI 特征尺寸缩小.ppt
- 数学家小篆.ppt
- 数学家阿波罗尼奥斯.ppt
- 2024高考物理一轮复习规范演练7共点力的平衡含解析新人教版.doc
- 高中语文第5课苏轼词两首学案3新人教版必修4.doc
- 2024_2025学年高中英语课时分层作业9Unit3LifeinthefutureSectionⅢⅣ含解析新人教版必修5.doc
- 2024_2025学年新教材高中英语模块素养检测含解析译林版必修第一册.doc
- 2024_2025学年新教材高中英语单元综合检测5含解析外研版选择性必修第一册.doc
- 2024高考政治一轮复习第1单元生活与消费第三课多彩的消费练习含解析新人教版必修1.doc
- 2024_2025学年新教材高中英语WELCOMEUNITSectionⅡReadingandThi.doc
- 2024_2025学年高中历史专题九当今世界政治格局的多极化趋势测评含解析人民版必修1.docx
- 2024高考生物一轮复习第9单元生物与环境第29讲生态系统的结构和功能教案.docx
- 2024_2025学年新教材高中英语UNIT5LANGUAGESAROUNDTHEWORLDSect.doc
文档评论(0)