基于VOPP并行编程环境最大频繁项集生成方法.docVIP

下载本文档

2
0
约9.23千字
约 17页
2018-08-28 发布于福建
举报
版权申诉

基于VOPP并行编程环境最大频繁项集生成方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于VOPP并行编程环境最大频繁项集生成方法

基于VOPP并行编程环境最大频繁项集生成方法　　(1.天津大学计算机科学与技术学院, 天津 300073； 2. 天津工程师范学院计算机系, 天津 300222) 　　　　摘要：　　频繁项集挖掘是关联规则挖掘的核心内容，提出了一种挖掘最大频繁项集的并行算法CDTR。它对CD (counting distribution)算法进行了改进，根据一种新的分布式共享内存环境下面向视图并行编程思想，将数据库划分成视图。为了实现动态任务分配，对数据库进行了预处理。实验结果显示CDTR能够高效地生成最大频繁项集，大大提高了分布式共享内存系统的效率。　　关键词：分布式共享内存系统; 面向视图并行编程；关联规则；最大频繁项集　　中图分类号：TP338.6文献标志码：A 　　文章编号：1001-?B3695(2009)04-?B1305-?B03 　　　　Algorithm for finding frequent itemsets based on VOPP 　　　　ZHENG Xiao-yan1，2, SHI Lian-shuan2, SUN Ji-zhou1 　　(1.College of Computer Science Technology, Tianjin University, Tianjin 300073, China; 2.Dept. of Computer, Tianjin University of Techno-??logy Education, Tianjin 300222, China) 　　　　Abstract: 　　Mining frequent item sets is a crucial issue in data mining applications. This paper proposed a novel and powerful parallel algorithm for mining maximal frequent item sets, called CDTR. CDTR improved the counting distribution algorithm based on VOPP (view-oriented parallel programming), a novel style for parallel programming on cluster computers. It divided search space into views and preprocessed database to help dynamic tasks allocation. Experiments show that CDTR finds maximal frequent item set efficiently and improves the performance of distribution shared memory system. 　　Key words：distribution shared memory; view-oriented parallel programming; association rules; maximal frequent itemsets 　　　　关联规则挖掘是数据挖掘领域中一个非常重要的内容，最早在1993年由Agrawal等人[1]提出，受到广泛的关注，并在实际应用中越来越显示出它的地位。研究人员针对关联规则挖掘提出了很多有用的算法，但是随着数据库规模和网络通信能力的不断提高，数据挖掘所面对的数据量迅速膨胀，加之关联规则挖掘算法的计算量和I/O量都很大的特点，串行挖掘算法远远不能满足实际需要。所以并行关联规则挖掘算法成为研究的重要课题，已经提出的并行算法主要有产生候选集和不产生候选集两类方法，产生候选集的方法主要基于Apriori算法[1]。本文讨论基于一种新的面向视图并行编程（view-oriented parallel programming,VOPP）思想的关联规则挖掘算法。VOPP是Huang 等人 [2]提出的一种新的分布式共享存储系统下的编程思想。　　?ツ壳?PC机群上的并行编程模型有两类，即消息传递模型和共享存储模型。消息传递模型的工业标准是消息传递接口 (message passing interface,MPI)，有多种具体的实现。运行在PC机群上的共享存储系统称为分布式共享存储系统(distributed shared memory,DSM)，DSM实际上是在消息传递分布式系统上，给程序员提供了一个虚拟的共享存储器的假象，这个环境下的编程很方便，可以省去很多与消息