并行频项集挖掘综述.docVIP

下载本文档

1
0
约 7页
2017-06-14 发布于河南
举报
版权申诉

并行频项集挖掘综述.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

并行频项集挖掘综述

并行频繁项集挖掘算法综述陈晓云赵娟（兰州大学信息科学与工程学院兰州 730000）摘要：本文介绍了并行频繁项集挖掘算法的研究概况，对一些经典的并行频繁项集挖掘算法进行了分析和评价，在文章的最后对并行频繁项集挖掘进行了展望。关键字：并行化；频繁项集；数据挖掘； Abstract: This paper introduces the parallel frequent itemset mining algorithm, some typical parallel frequent itemset mining algorithm were analysed and evaluated. At the end of the article some future directions in parallel frequent itemset mining were discussed. Key words: parallel; frequent itemset; data mining; 1 引言国内外许多的研究工作者都对频繁项集的挖掘表现出极大的兴趣，至今已经研究出许多频繁项集挖掘算法，其中最为经典的两个算法就是由R.Agrawal和R.Srikant于1994年提出的Apriori算法和J.Han等人2000年提出的FP-Growth算法。频繁项集挖掘的算法大多都是基于这两种算法的原理，被分为类Apriori算法和类FP-Growth算法。由于数据挖掘在开始被提出时就是面向海量数据的，庞大的搜索空间使得许多传统的数据挖掘算法的效率并不理想。高性能并行环境为数据挖掘的发展开辟了一条新的路径，研究并行环境下的数据挖掘并行算法成为了数据挖掘界的热点。频繁项集挖掘也不例外，经过这些年的研究，并行化的频繁项集挖掘算法已经取得了一些成果。目前已有许多工作者致力于研究并行频繁项集挖掘算法，并已有一些成绩。其中影响力比较大的包括R.Agrawal等人提出的类Apriori算法的并行算法Count Distribution，Data Distribution和Candidate Distribution Methods，2004年Osmar R. Zaiane等人提出的MLFPT算法和Javed和Khokhar等人提出的PFP-tree算法，分别是基于共享内存和分布式内存的类FP-Growth并行化频繁项集挖掘算法。 2 频繁项集挖掘的基本概念定义2-1 （支持度与置信度）设I = {I1, I2,… ,Im }是项的集合。设任务相关的数据库D是数据库事务的集合，其中每个事务T是项的集合，。每一个事务有一个标识符，称作TID。设A是一个项集（itemset），也称模式（pattern），事物T包含A当且仅当。关联规则是形如的蕴含式，其中，，并且。规则在事务集D中成立，是由支持度（support）sup和置信度（confidence）conf来约束的。其中sup是D中事务包含的百分比，即P（），conf是D中包含A的事务同时也包含B的百分比。即P（）。即 support（）= P（） confidence（）= P（）定义2-2 （频繁k-项集）设I={I1,I2,…,Im}为项的集合，其中Ij(j=1,2,…,m)表示一个项。集合被称为项集，如果。如果|X|=k，则X被称为k-项集。项集X的支持度是中包含X的事务数占所有事务数的百分比，它是概率P(X)，记为：sup(X)。给定事务数据库和最小支持度阈值，如果，则项集X被称为频繁项集，如果|X|=k，则X被称为频繁k-项集。定义2-3 （闭频繁项集和极大频繁项集）如果不存在真超项集Y使得Y与X在S中有相同的支持度计数，则称项集X在数据集S中是闭合的。如果X在S中是闭合的和频繁的，则项集X是数据集S中的闭频繁项集。如果X是频繁的，并且不存在超项集Y使得并且Y在S中是频繁的，则项集X是S中的极大频繁项集。 3 并行频繁项集挖掘算法频繁模式挖掘的搜索空间可以被模拟成类似格的结构，其中由模式的大小来决定它处于格中的哪一层，每一层又以某种顺序进行排列。模式格的维数决定了问题的指数级别[24]。比如，对于一个有着n个不同项的事务数据库，可能的模式就会有2n。也就是说，如果一个事务数据库有100个不同的项，搜索空间就达巨大的搜索空间使得在大型数据库上的频繁模式的挖掘成为一个计算密集型问题。然而传统的频繁模式挖掘算法被单一处理器和有限的内存空间所限制，不适用于大型数据库。因此，利用高性能并行计算来改善现有频繁模式挖掘算法的瓶颈，使其适用于大规模数据库是非常必要的。 R.Agrawal等人在Apriori算法的基础上提出了并行算法Count Distribution，