- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第8章数据开采1
/// 1.2 知识发现和数据挖掘概念 知识发现(KDD)被认为是从数据中发现有用知识的整个过程。数据挖掘(DM)被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns)。 KDD过程定义(Fayyad,Piatetsky-Shapiror, and Smyth 1996): 从大量数据中提取出可信的、新颖的、有用的并能被人理解的模式的高级处理过程。 “模式”可以看成是知识的雏形,经过验证、完善后形成知识。 */八 * 一、 知识发现与数据挖掘 二、 基于信息论的数据挖掘方法 三、 基于信息熵的规则组合 第八章 数据挖掘 本章内容 (1) 80年在美国召开了第一届国际机器学习研讨会; (2) 89年8月于美国底特律市召开的第一届KDD国 际学术会议; (3) 95年在加拿大召开了第一届知识发现和数据挖掘国际学术会议; (4) 我国于87年召开了第一届全国机器学习研讨会。 第八章 数据挖掘 一、 知识发现与数据挖掘 1.1 知识发现和数据挖掘的兴起 第八章 数据挖掘 一、 知识发现与数据挖掘 KDD过程 数据源 数据 数据集成 目标数据 预处理后 数据 转换数据 模式 知识 数据选择 预处理 数据挖掘 数据转换 结果表达和解释 数据准备 数据挖掘 结果表达和解释 第八章 数据挖掘 一、 知识发现与数据挖掘 1.2 知识发现和数据挖掘概念 若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。 一个相关规则的形式为: A1∧A2…∧Ai→B1∧B2…∧Bj。 如果B1,B2,Bj出现,那么A1,A2,Ai一定出现,这表明A1,A2,Ai 与 B1,B2,Bj有某种关联 第八章 数据挖掘 一、 知识发现与数据挖掘 1.3 数据挖掘任务 关联分析 数据挖掘任务主要有:关联分析、聚类、概念描述 、偏差检测、预测。 数据库中的数据可以划分为一系列有意义的子集,即类。 在同一类别中,个体之间的距离较小,而不同类别上的个体之间的距离偏大。 第八章 数据挖掘 一、 知识发现与数据挖掘 1.3 数据挖掘任务 聚类分析 对数据库中一类对象的内涵进行描述,以概括这个类的有关特征。概念描述是对数据库的整体信息有全面概括,从数据库中归纳抽象的信息。 类的内涵描述有两种: (1)特征描述:对类中对象的共同特点进行描述 (2)辨别性描述:对两个或多个类之间的区别描述 产生辨别性描述的方法有: (1)决策树方法:ID3,IBLE等 (2)神经网络方法 (3)遗传算法 第八章 数据挖掘 一、 知识发现与数据挖掘 1.3 数据挖掘任务 概念描述 数据库中的数据存在很多异常情况,从数据分析中发现这些异常情况也是很重要的,以引起人们对它更多的注意。 偏差检测的数据模式有极值点、断点、拐点、零点和边界等不同的偏差对象。 第八章 数据挖掘 一、 知识发现与数据挖掘 1.3 数据挖掘任务 偏差检测 预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类,特征等。 预测 第八章 数据挖掘 2.1 ID3方法 二、 基于信息论的数据挖掘方法 工作过程: 首先找出数据集合中最有判别力的属性,把数据分成若干个子集,针对每个子集又选择最有判别力的因素进行划分,直到子集中所有元素属于同一类型为止。 属性判别力的度量——互信息 工作结果:生成一棵决策树 第八章 数据挖掘 2.2 信息论原理 二、 基于信息论的数据挖掘方法 源信息 宿信息 信道 干预 源信息是客观系统本身固有的信息。 宿信息是接受系统所呈现的信息。 信息熵(先验熵)、条件熵(后验熵)、互信息 互信息 = 信息熵 - 条件熵 三者关系: 第八章 数据挖掘 2.2 信息论原理 二、 基于信息论的数据挖掘方法 源U 宿V 信道 P(V/U) u1,u2,…,ur v1,v2,…,vq 信道模型: 计算: 信息熵:H(U)= -∑P(ui)log P(ui) i r r 条件熵:H(U/V)= - ∑P(vj)∑ P(ui /vj )log P(ui /vj ) i j q P(U)=(P(u1),P(u2),…,P(ur)) 给定: P(V/U)= P(v1/ u1) P(v2/ u1) … P(vq/ u1) P(v1/ u2) P(v2/ u2) … P(vq/ u2) P(v1/ ur) P(v2/ ur) … P(vq/ ur) 传输概率 第八章 数据挖掘 2.3 ID3算法 二、 基于信息论的数据挖掘方法 主算法:
文档评论(0)