挖掘关联规则中的并行算法.pdfVIP

下载本文档

3
0
约8.04千字
约 5页
2017-08-17 发布于安徽
举报
版权申诉

挖掘关联规则中的并行算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Vol35 第35卷专缉兰州大学学报(自然科学学版 Supp Aug．1999 !!!!±!! !竺竺!!!!!竺垫!!生!!!!型!!!塑翌!!!兰!!!! 文章编号：0455—2059(1999)0359—05 挖掘关联规则中的并行算法 )2_70 谭会晓，李建中 f黑龙江火学计算机系，黑龙江Ⅱ舟尔滨150080) 对它们的性能进行了摘要：本文对己提tP,ID挖掘关联规则的并行算法进行r较为伞商的总结，分析，针对这砦算法中的问题，奉文提…_J，一种新的挖掘关联蛳则的并行算法，并对它的性能作，简要分析，给m丁优化策略关毽词：数据挖掘。关联瑚则：人项集并彳]=算法 0引言在数据挖掘领域中，关联规则的挖掘有着J“泛的应用背景，因此人们在这方面进行了大量的，较为深入的研究：L作．关联规则是表示数据库中一组对象之间某种关联关系的规则111．它挖掘的对象是事务数据库，最主要的应用领域就是决策支持，典型的应_[}j是对销售数据的分析挖掘关联规则时一般需要寻找人项集和构造规则两步．而寻找大项集是最为费时的一步，是计算事务数据库中人项集的较为有效的算法，后来对该筇法进行了许多的改进和扩充工作，以提高挖掘相关规则的效率．尽管它采Hj了hash．tree的数据结构，仍然无法改变对数据库多遍扫描的事实．即如果人项集中最人氏度为k，则对整个数据库的扫描至少需要k遍．而数据挖掘正是应用于大数据库中的技术，要处理的数据量极人，多遍扫描会增加I／0时间，降低挖捌效率．于是人们从减少扫描遍数的角度出发，研究了一些新的算法，如D／CI”算法，抽样[41算法等．因为单处理器系统的计算能力是有限的，这螳算法对于大数据库来说效率仍然很低．为此，研究并行数据挖掘算法是十分必要的．目前人们已经提出的一些并行算法，包括 D．Candidate Hart等人的IDD， R．Agrawal等人的cD，DDistsibution算法{”，以及Euj．Hong Hybrid算法[61．它们都是基于Apri06的并行算法、除Candidate 都需要在每完成一步计算进行一次同步，以得到全局的信息．并行计算的关键性能是负载平衡和同步．由于Ap,iori算法的同有局限性，这些并行算法在计算过程中需要多次同步，具有较低的性能．针对这些算法的问题，本文捉}U了一种新的并行算法，简称为OA算法．OA算法尽可能地让每个处理器独立地工作，减少同步次数以提高挖捌关联规则的效率． 1相关工作本：1，讨论已提出的5种并行算法，即CD算法，DD算法，CandidateDistribution算法收稿日期：1999～05—15 基金项目：国家杰出青年基金、国家自然科学肇金、黑尼讧宵杰jf}青年资助顺H 作者简介：谭会饶(1974一)，女．坝士研究生．李建中，1950一)，男，教授，博．i．导师 360 兰州大学学报(自然科擘学版) 第35卷表示K度为k的候选集C。1表示在第k次运饽中，存储在P‘处理器上的候选集；P·表示标号为 i的处理器：D‘ 袭示在P2处理器上存储的本地数据块． CD(Count 算时利JHApriori算法计尊出本地数据在候选集上的计数，然后做一次同步，各处理器交换其上候选项集的计数，使得每个处理器的候选集都得到全局计数，从而得到全局火项集L。事实上，CD剪：法使Hj了一个简单的原则，即允许征其它处理器上进行并行地冗余计算和冗余存储，尽而避免人始通信与CD相比DD(Data 处理器中存储不同怕候选集，这样在处理器数母增加时，一步可以计算的候选集数餐增多了．每个处理器为了计算本