一种高效并行关联规则挖掘算法在专利数据库应用.docxVIP

下载本文档

2
0
约2.56千字
约 5页
2019-07-03 发布于广东
举报
版权申诉

一种高效并行关联规则挖掘算法在专利数据库应用.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种高效并行关联规则挖掘算法在专利数据库应用摘要：针对Apriori算法在专利数据库挖掘时因数量巨大而存在的低效问题，提出一种利用集群的并行关联规则挖掘算法 APPAA ( Advanced Pruning Parallel Apriori Algorithm) o通过仿真实验表明，APPAA算法比传统的 Apriori算法在时间上缩短了 85%左右。同时该方法具有良好的并行性和可扩展性，可以有效地提高专利数据库服务水平。关键词：并行计算专利数据库数据挖掘Apriori算法；中图分类号：G250. 76； TP391文献标识码：A文章编号：1007-9416 (2012) 11-0134-01 1、引言随着专利的迅猛发展，产生了大量的记录和数据，在此情况下，借鉴目前数字图书馆的管理方式，利用数据挖掘对海量信息深层次的开发，以方便读者使用和提高文献使用率，成为提高专利数据库服务水平的一种解决方案。关联规则的Apriori是数据挖掘中效果较好的一种算法。它通过挖掘数据项集之间的潜在关系，从而在大量数据中发现有用的知识，这些知识对于读者分析、专利分类、个性推荐等决策的制定起到了很大的作用。但是，随着专利数据库的不断发展，读者数量激增，传统的Apriori算法需要频繁扫描候选集耗费时间过长。已有很多文献对传统的Apriori算法进行了有效的改进。为了提高挖掘的效率，同时提高系统的扩展性，提出一种高效的并行关联规则算法，以加快专利检索的处理速度，提高了挖掘效率。 2、关联规则关联规则挖掘是从大量数据项中发现有趣的关联或相关联系。设1={,,…，}是项的集合，其中的元素称为项 (item)o记D为交易T的集合，这里交易T是项的集合，并且。对应每一个交易有唯一的标识，如交易号(TID)O设 X是一个I中项的一个集合，如果XT,那么称交易T包含X。一个关联规则是形如XY的蕴涵式，这里XI, YI,并且 XCY二①。规则XY在事物数据库D中的支持度(support) 是事物集中包含X和Y的事物数与所有事物数之比，记为 support (XY),即规则XY在事物集中的可信度(confidence)是指包含X 和Y的事务数与包含X的事物数之比，记为confidence(XY), 即： 3、并行关联规则并行Apriori算法主要有以下几种： CD (Count Distribution)算法是 Apriori 算法最直接的并行方式。每个处理机根据本地数据库划分所有候选项集的局部支持度。在每趟扫描结束时，交换局部支持度来产生全局支持度。由于CD算法不管候选集是否频繁相互之间都传递候选集的信息，对通讯资源的带宽浪费严重，在候选集过多时会造成通迅量的过载。 DD (DataDistribution)算法将候选集分成几部分，分别放到不同的处理机上。为了产生全局支持度，各处理机每扫描一趟都要覆盖整个数据库，产生了巨大的数据交换开销。 CAD (Candidate Distribution)算法是分割候选集，采用了有选择复制数据库的方法，使每个处理机相对独立工作。目前并行Apriori算法主要问题是重复访问数据库分区带来的I/O开销和每次迭代过程中候选计数、数据交换的通信开销。因此需要从以上两个方面优化现有并行算法，本文提出一种基于提前剪枝的并行关联规则挖掘算法APPAA (Advanced Pruning Parallel Apriori Algorithm), 实验证明，该算法减少了候选项目集和数据交换开销，加快 Apriori算法效率85%左右。 4、APPAA算法描述设Pl, P2……Pi (i=l, 2,……，n)为n台无共享体系结构集群，即它们之间除了通过网络传递信息外，其它资源(处理器、硬盘、内存等)全部是独立的。定理一：设数据集D被分割成分块DI, D2, , Dn, 全局最小支持度为minsupport,对应其最小支持数为 min_count。设数据分块Di的局部最小支持数记为 min_counti (i=l, 2, . . . , n)那么局部最小支持数 min_counti 二min_count*Di/D (i=l, 2, n) 定理二：如果一个数据项目集在DI, D2, . . . , Dn中均不是频繁项目集，则这个数据项目集在全局数据集D中不可能是频繁项目集。定理三：一个局部的频繁项目集不一定是全局的频繁项目集。根据定理一，定理二和定理三，本文采用总-分-总的处理方法，即主处理器完成生成第一次频繁项目集，并对该频繁项目集进行划分，生成局部项目集。局部项目集分别处理各自的数据后将结果返回主处理器，循环直至结束。在Aprio