挖掘关联规则中的并行算法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Vol35 第35卷专缉 兰州大学学报(自然科学学版 Supp Aug.1999 !!!!±!! !竺竺!!!!!竺垫!!生!!!!型!!!塑翌!!!兰!!!! 文章编号:0455—2059(1999)0359—05 挖掘关联规则中的并行算法 )2_70 谭会晓,李建中 f黑龙江火学计算机系,黑龙江Ⅱ舟尔滨150080) 对它们的性能进行了 摘要:本文对己提tP,ID挖掘关联规则的并行算法进行r较为伞商的总结, 分析,针对这砦算法中的问题,奉文提…_J,一种新的挖掘关联蛳则的并行算法,并对它的性能作, 简要分析,给m丁优化策略 关毽词:数据挖掘。关联瑚则:人项集 并彳]=算法 0引言 在数据挖掘领域中,关联规则的挖掘有着J“泛的应用背景,因此人们在这方面进行了 大量的,较为深入的研究:L作.关联规则是表示数据库中一组对象之间某种关联关系的规则111. 它挖掘的对象是事务数据库,最主要的应用领域就是决策支持,典型的应_[}j是对销售数据的 分析挖掘关联规则时一般需要寻找人项集和构造规则两步.而寻找大项集是最为费时的一步, 是计算事务数据库中人项集的较为有效的算法,后来对该筇法进行了许多的改进和扩充工 作,以提高挖掘相关规则的效率.尽管它采Hj了hash.tree的数据结构,仍然无法改变对数据 库多遍扫描的事实.即如果人项集中最人氏度为k,则对整个数据库的扫描至少需要k遍.而 数据挖掘正是应用于大数据库中的技术,要处理的数据量极人,多遍扫描会增加I/0时间, 降低挖捌效率.于是人们从减少扫描遍数的角度出发,研究了一些新的算法,如D/CI”算法, 抽样[41算法等.因为单处理器系统的计算能力是有限的,这螳算法对于大数据库来说效率仍然 很低.为此,研究并行数据挖掘算法是十分必要的.目前人们已经提出的一些并行算法,包括 D.Candidate Hart等人的IDD, R.Agrawal等人的cD,DDistsibution算法{”,以及Euj.Hong Hybrid算法[61.它们都是基于Apri06的并行算法、除Candidate 都需要在每完成一步计算进行一次同步,以得到全局的信息.并行计算的关键性能是负载平 衡和同步.由于Ap,iori算法的同有局限性,这些并行算法在计算过程中需要多次同步,具有 较低的性能.针对这些算法的问题,本文捉}U了一种新的并行算法,简称为OA算法.OA算 法尽可能地让每个处理器独立地工作,减少同步次数以提高挖捌关联规则的效率. 1相关工作 本:1,讨论已提出的5种并行算法,即CD算法,DD算法,CandidateDistribution算法 收稿日期:1999~05—15 基金项目:国家杰出青年基金、国家自然科学肇金、黑尼讧宵杰jf}青年资助顺H 作者简介:谭会饶(1974一),女.坝士研究生.李建中,1950一),男,教授,博.i.导师 360 兰州大学学报(自然科擘学版) 第35卷 表示K度为k的候选集C。1表示在第k次运饽中,存储在P‘处理器上的候选集;P·表示标号为 i的处理器:D‘ 袭示在P2处理器上存储的本地数据块. CD(Count 算时利JHApriori算法计尊出本地数据在候选集上的计数,然后做一次同步,各处理器交换其 上候选项集的计数,使得每个处理器的候选集都得到全局计数,从而得到全局火项集L。事实 上,CD剪:法使Hj了一个简单的原则,即允许征其它处理器上进行并行地冗余计算和冗余存储, 尽而避免人始通信 与CD相比DD(Data 处理器中存储不同怕候选集,这样在处理器数母增加时,一步可以计算的候选集数餐增多了. 每个处理器为了计算本

文档评论(0)

bhl0572 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档