第8章人工智能数据挖掘46.pptVIP

下载本文档

6
0
约 46页
2017-03-30 发布于贵州
举报
版权申诉

第8章人工智能数据挖掘46.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第8章人工智能数据挖掘46第8章人工智能数据挖掘46

8.3 关联规则挖掘 8.3.2关联规则的分类（1）根据关联规则所处理的变量的类别来划分，关联规则可分为布尔型和数值型（2）根据规则中数据的维数来划分，关联规则可分为单维的和多维的（3）根据规则中数据挖掘的抽象层次来划分，可以分为单层关联规则和多层关联规则（4）根据关联规则所涉及的关联特性来进行分类划分关联挖掘可扩展到其它数据挖掘应用领域，如进行分类学习，或进行相关分析（即可以通过相关数据项出现或不出现来进行相关属性识别与分析） 8.3 关联规则挖掘 8.3.3经典关联规则挖掘算法 1．Apriori算法 Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法；它也是一个很有影响的关联规则挖掘算法。Apriori算法就是根据有关频繁项集特性的先验知识而命名的。该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k-项集来产生(k+1)-项集。具体做法就是：首先找出频繁1-项集，记为L1；然后利用L1来挖掘L2 ，即频繁2-项集；不断如此循环下去直到无法发现更多的频繁k-项集为止。每挖掘一层Lk就需要扫描整个数据库一遍。 8.3 关联规则挖掘算法8.1：（Apriori）利用层次循环发现频繁项集。输入：交易数据库D最小支持阈值min_sup 输出：Li，D中的频繁项集；处理流程： (1) L1=find_frequent_1_itemset(D)；//发现1-项集 (2) for(k=2;Lk-1≠;k++) { (3) Ck = apriori-gen ( Lk-1, min_sup); // 根据频繁(k-1)-项集产生候选k-项集 (4) for each t ? D { //扫描数据库，以确定每个候选项集的支持频度 (5) Ct = subset( Ck, t ); //获得t所包含的候选项集 (6) for each c ? Ct c.count ++ ; } (7) Lk = { c ? Ck | c.count ? min_sup} (8) Return L=∪k Lk ; * * 第八章数据挖掘人工智能华中师范大学计算机科学系第八章数据挖掘数据挖掘（Data Mining）是一个多学科交叉研究领域，它融合了数据库技术、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新技术的研究成果。经过十几年的研究，产生了许多新概念和方法。特别是最近几年来，一些基本概念和方法趋于清晰，它的研究正向着更深入的方向发展。数据挖掘技术正在以一种全新的概念改变着人类利用数据的方式，它被认为是未来信息处理的骨干技术之一，网络之后的下一个技术热点。 8.1 数据挖掘概述 8.1.1数据挖掘的定义数据挖掘（Data Mining）是一门受到来自各种不同领域的研究者关注的交叉性学科，有很多不同的术语名称，除了常用的“数据挖掘”和“知识发现”之外，与数据挖掘相近的同义词有数据融合、数据分析、知识抽取、信息发现、数据采掘、知识获取、数据考古、信息收获和决策支持等。从技术的角度讲，数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，也不是要去发现崭新的自然科学定理和纯数学公式，更不是什么机器定理证明，只要能支持特定的发现问题即可。实际上，利用数据挖掘从数据集中所有发现的知识都是相对的，是有特定前提和约束条件，面向特定领域的，同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。 8.1 数据挖掘概述从商业的角度讲，数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。　　简而言之，数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史，只不过在过去数据收集和分析的目的是用于科学研究，另外，由于当时计算能力的限制，对大数据量进行分析的复杂数据分析方法受到很大限制。现在，由于各行业业务自动化的实现，商业领域产生了大量的业务数据，这些数据不再是为了分析的目的而收集的，而是由于纯机会的商业运作而产生。分析这些数据也不再是单纯为了研究的需要，更主要是为商业决策提供真正有价值的信息，进而获得利润。 8.1 数据挖掘概述 8.1.2数据挖掘与数据库中的知识发现（1）KDD看成