- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Vol35
第35卷专缉 兰州大学学报(自然科学学版 Supp
Aug.1999
!!!!±!! !竺竺!!!!!竺垫!!生!!!!型!!!塑翌!!!兰!!!!
文章编号:0455—2059(1999)0359—05
挖掘关联规则中的并行算法
)2_70
谭会晓,李建中
f黑龙江火学计算机系,黑龙江Ⅱ舟尔滨150080)
对它们的性能进行了
摘要:本文对己提tP,ID挖掘关联规则的并行算法进行r较为伞商的总结,
分析,针对这砦算法中的问题,奉文提…_J,一种新的挖掘关联蛳则的并行算法,并对它的性能作,
简要分析,给m丁优化策略
关毽词:数据挖掘。关联瑚则:人项集 并彳]=算法
0引言
在数据挖掘领域中,关联规则的挖掘有着J“泛的应用背景,因此人们在这方面进行了
大量的,较为深入的研究:L作.关联规则是表示数据库中一组对象之间某种关联关系的规则111.
它挖掘的对象是事务数据库,最主要的应用领域就是决策支持,典型的应_[}j是对销售数据的
分析挖掘关联规则时一般需要寻找人项集和构造规则两步.而寻找大项集是最为费时的一步,
是计算事务数据库中人项集的较为有效的算法,后来对该筇法进行了许多的改进和扩充工
作,以提高挖掘相关规则的效率.尽管它采Hj了hash.tree的数据结构,仍然无法改变对数据
库多遍扫描的事实.即如果人项集中最人氏度为k,则对整个数据库的扫描至少需要k遍.而
数据挖掘正是应用于大数据库中的技术,要处理的数据量极人,多遍扫描会增加I/0时间,
降低挖捌效率.于是人们从减少扫描遍数的角度出发,研究了一些新的算法,如D/CI”算法,
抽样[41算法等.因为单处理器系统的计算能力是有限的,这螳算法对于大数据库来说效率仍然
很低.为此,研究并行数据挖掘算法是十分必要的.目前人们已经提出的一些并行算法,包括
D.Candidate Hart等人的IDD,
R.Agrawal等人的cD,DDistsibution算法{”,以及Euj.Hong
Hybrid算法[61.它们都是基于Apri06的并行算法、除Candidate
都需要在每完成一步计算进行一次同步,以得到全局的信息.并行计算的关键性能是负载平
衡和同步.由于Ap,iori算法的同有局限性,这些并行算法在计算过程中需要多次同步,具有
较低的性能.针对这些算法的问题,本文捉}U了一种新的并行算法,简称为OA算法.OA算
法尽可能地让每个处理器独立地工作,减少同步次数以提高挖捌关联规则的效率.
1相关工作
本:1,讨论已提出的5种并行算法,即CD算法,DD算法,CandidateDistribution算法
收稿日期:1999~05—15
基金项目:国家杰出青年基金、国家自然科学肇金、黑尼讧宵杰jf}青年资助顺H
作者简介:谭会饶(1974一),女.坝士研究生.李建中,1950一),男,教授,博.i.导师
360 兰州大学学报(自然科擘学版) 第35卷
表示K度为k的候选集C。1表示在第k次运饽中,存储在P‘处理器上的候选集;P·表示标号为
i的处理器:D‘ 袭示在P2处理器上存储的本地数据块.
CD(Count
算时利JHApriori算法计尊出本地数据在候选集上的计数,然后做一次同步,各处理器交换其
上候选项集的计数,使得每个处理器的候选集都得到全局计数,从而得到全局火项集L。事实
上,CD剪:法使Hj了一个简单的原则,即允许征其它处理器上进行并行地冗余计算和冗余存储,
尽而避免人始通信
与CD相比DD(Data
处理器中存储不同怕候选集,这样在处理器数母增加时,一步可以计算的候选集数餐增多了.
每个处理器为了计算本
文档评论(0)