第8章数据开采1.pptVIP

下载本文档

0
0
约4.75千字
约 25页
2017-05-08 发布于四川
举报
版权申诉

第8章数据开采1.ppt

1、本文档共25页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第8章数据开采1

/// 1.2 知识发现和数据挖掘概念知识发现（KDD）被认为是从数据中发现有用知识的整个过程。数据挖掘（DM）被认为是KDD过程中的一个特定步骤，它用专门算法从数据中抽取模式（patterns）。 KDD过程定义（Fayyad，Piatetsky-Shapiror， and Smyth 1996）：从大量数据中提取出可信的、新颖的、有用的并能被人理解的模式的高级处理过程。 “模式”可以看成是知识的雏形，经过验证、完善后形成知识。 */八 * 一、知识发现与数据挖掘二、基于信息论的数据挖掘方法三、基于信息熵的规则组合第八章数据挖掘本章内容 (1) 80年在美国召开了第一届国际机器学习研讨会； (2) 89年8月于美国底特律市召开的第一届KDD国际学术会议； (3) 95年在加拿大召开了第一届知识发现和数据挖掘国际学术会议； (4) 我国于87年召开了第一届全国机器学习研讨会。第八章数据挖掘一、知识发现与数据挖掘 1.1 知识发现和数据挖掘的兴起第八章数据挖掘一、知识发现与数据挖掘 KDD过程数据源数据数据集成目标数据预处理后数据转换数据模式知识数据选择预处理数据挖掘数据转换结果表达和解释数据准备数据挖掘结果表达和解释第八章数据挖掘一、知识发现与数据挖掘 1.2 知识发现和数据挖掘概念若两个或多个数据项的取值之间重复出现且概率很高时，它就存在某种关联，可以建立起这些数据项的关联规则。一个相关规则的形式为： A1∧A2…∧Ai→B1∧B2…∧Bj。如果B1,B2,Bj出现，那么A1,A2,Ai一定出现，这表明A1,A2,Ai 与 B1,B2,Bj有某种关联第八章数据挖掘一、知识发现与数据挖掘 1.3 数据挖掘任务关联分析数据挖掘任务主要有：关联分析、聚类、概念描述、偏差检测、预测。数据库中的数据可以划分为一系列有意义的子集，即类。在同一类别中，个体之间的距离较小，而不同类别上的个体之间的距离偏大。第八章数据挖掘一、知识发现与数据挖掘 1.3 数据挖掘任务聚类分析对数据库中一类对象的内涵进行描述，以概括这个类的有关特征。概念描述是对数据库的整体信息有全面概括，从数据库中归纳抽象的信息。类的内涵描述有两种：（1）特征描述：对类中对象的共同特点进行描述（2）辨别性描述：对两个或多个类之间的区别描述产生辨别性描述的方法有： (1)决策树方法：ID3，IBLE等 (2)神经网络方法 (3)遗传算法第八章数据挖掘一、知识发现与数据挖掘 1.3 数据挖掘任务概念描述数据库中的数据存在很多异常情况，从数据分析中发现这些异常情况也是很重要的，以引起人们对它更多的注意。偏差检测的数据模式有极值点、断点、拐点、零点和边界等不同的偏差对象。第八章数据挖掘一、知识发现与数据挖掘 1.3 数据挖掘任务偏差检测预测是利用历史数据找出变化规律，建立模型，并用此模型来预测未来数据的种类，特征等。预测第八章数据挖掘 2.1 ID3方法二、基于信息论的数据挖掘方法工作过程：首先找出数据集合中最有判别力的属性，把数据分成若干个子集，针对每个子集又选择最有判别力的因素进行划分，直到子集中所有元素属于同一类型为止。属性判别力的度量——互信息工作结果：生成一棵决策树第八章数据挖掘 2.2 信息论原理二、基于信息论的数据挖掘方法源信息宿信息信道干预源信息是客观系统本身固有的信息。宿信息是接受系统所呈现的信息。信息熵（先验熵）、条件熵（后验熵）、互信息互信息 = 信息熵 - 条件熵三者关系：第八章数据挖掘 2.2 信息论原理二、基于信息论的数据挖掘方法源U 宿V 信道 P(V/U) u1,u2,…,ur v1,v2,…,vq 信道模型: 计算：信息熵：H（U）= -∑P（ui）log P（ui） i r r 条件熵：H（U/V）= - ∑P(vj)∑ P(ui /vj )log P(ui /vj ) i j q P(U)=(P(u1),P(u2),…,P(ur)) 给定： P(V/U)= P(v1/ u1) P(v2/ u1) … P(vq/ u1) P(v1/ u2) P(v2/ u2) … P(vq/ u2) P(v1/ ur) P(v2/ ur) … P(vq/ ur) 传输概率第八章数据挖掘 2.3 ID3算法二、基于信息论的数据挖掘方法主算法：