一种高效并行关联规则挖掘算法在专利数据库应用.docxVIP

一种高效并行关联规则挖掘算法在专利数据库应用.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种高效并行关联规则挖掘算法在专利数 据库应用 摘要:针对Apriori算法在专利数据库挖掘时因数量巨大 而存在的低效问题,提出一种利用集群的并行关联规则挖掘 算法 APPAA ( Advanced Pruning Parallel Apriori Algorithm) o通过仿真实验表明,APPAA算法比传统的 Apriori算法在时间上缩短了 85%左右。同时该方法具有良 好的并行性和可扩展性,可以有效地提高专利数据库服务水 平。 关键词:并行计算专利数据库数据挖掘Apriori算 法; 中图分类号:G250. 76; TP391文献标识码:A文章编 号:1007-9416 (2012) 11-0134-01 1、引言 随着专利的迅猛发展,产生了大量的记录和数据,在此 情况下,借鉴目前数字图书馆的管理方式,利用数据挖掘对 海量信息深层次的开发,以方便读者使用和提高文献使用 率,成为提高专利数据库服务水平的一种解决方案。关联规 则的Apriori是数据挖掘中效果较好的一种算法。它通过挖 掘数据项集之间的潜在关系,从而在大量数据中发现有用的 知识,这些知识对于读者分析、专利分类、个性推荐等决策 的制定起到了很大的作用。但是,随着专利数据库的不断发 展,读者数量激增,传统的Apriori算法需要频繁扫描候选 集耗费时间过长。已有很多文献对传统的Apriori算法进行 了有效的改进。为了提高挖掘的效率,同时提高系统的扩展 性,提出一种高效的并行关联规则算法,以加快专利检索的 处理速度,提高了挖掘效率。 2、 关联规则 关联规则挖掘是从大量数据项中发现有趣的关联或相 关联系。设1={,,…,}是项的集合,其中的元素称为项 (item)o记D为交易T的集合,这里交易T是项的集合, 并且。对应每一个交易有唯一的标识,如交易号(TID)O设 X是一个I中项的一个集合,如果XT,那么称交易T包含X。 一个关联规则是形如XY的蕴涵式,这里XI, YI,并且 XCY二①。规则XY在事物数据库D中的支持度(support) 是事物集中包含X和Y的事物数与所有事物数之比,记为 support (XY),即 规则XY在事物集中的可信度(confidence)是指包含X 和Y的事务数与包含X的事物数之比,记为confidence(XY), 即: 3、 并行关联规则 并行Apriori算法主要有以下几种: CD (Count Distribution)算法是 Apriori 算法最直 接的并行方式。每个处理机根据本地数据库划分所有候选项 集的局部支持度。在每趟扫描结束时,交换局部支持度来产 生全局支持度。由于CD算法不管候选集是否频繁相互之间 都传递候选集的信息,对通讯资源的带宽浪费严重,在候选 集过多时会造成通迅量的过载。 DD (DataDistribution)算法将候选集分成几部分,分 别放到不同的处理机上。为了产生全局支持度,各处理机每 扫描一趟都要覆盖整个数据库,产生了巨大的数据交换开 销。 CAD (Candidate Distribution)算法是分割候选集, 采用了有选择复制数据库的方法,使每个处理机相对独立工 作。 目前并行Apriori算法主要问题是重复访问数据库分区 带来的I/O开销和每次迭代过程中候选计数、数据交换的通 信开销。因此需要从以上两个方面优化现有并行算法,本文 提出一种基于提前剪枝的并行关联规则挖掘算法APPAA (Advanced Pruning Parallel Apriori Algorithm), 实验证明,该算法减少了候选项目集和数据交换开销,加快 Apriori算法效率85%左右。 4、APPAA算法描述 设Pl, P2……Pi (i=l, 2,……,n)为n台无共享体 系结构集群,即它们之间除了通过网络传递信息外,其它资 源(处理器、硬盘、内存等)全部是独立的。 定理一:设数据集D被分割成分块DI, D2, , Dn, 全局最小支持度为minsupport,对应其最小支持数为 min_count。设数据分块Di的局部最小支持数记为 min_counti (i=l, 2, . . . , n)那么局部最小支持数 min_counti 二min_count*Di/D (i=l, 2, n) 定理二:如果一个数据项目集在DI, D2, . . . , Dn中均 不是频繁项目集,则这个数据项目集在全局数据集D中不可 能是频繁项目集。 定理三:一个局部的频繁项目集不一定是全局的频繁项 目集。 根据定理一,定理二和定理三,本文采用总-分-总的处 理方法,即主处理器完成生成第一次频繁项目集,并对该频 繁项目集进行划分,生成局部项目集。局部项目集分别处理 各自的数据后将结果返回主处理器,循环直至结束。 在Aprio

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档