基于hadoop平台下gpu集群加速apriori算法的研究.docVIP

下载本文档

6
0
约9.16千字
约 14页
2017-12-10 发布于河北
举报
版权申诉

基于hadoop平台下gpu集群加速apriori算法的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于hadoop平台下gpu集群加速apriori算法的研究

基于Hadoop平台下GPU集群加速Apriori算法的研究瞿诗齐刘少江倪伟传余庆茂中山大学新华学院 X 关注成功！加关注后您将方便地在我的关注中得到本文献的被引频次变化的通知！新浪微博腾讯微博人人网开心网豆瓣网网易微博摘????要：介绍了传统串行Apriori算法和它的一些弊端, 针对Apriori算法在Hadoop平台下的集群节点计算能力有限的问题, 将并行能力强大的GPU与Hadoop相结合, 提出了一种GPU-Hadoop的计算结构。以Hadoop平台的Map Reduce的框架不变, 节点将Apriori算法里的计算密集型任务交由GPU来进行处理, 缩减运算时间。通过两组对比实验, 证明了改进的Apriori算法在面对大规模数据集时有着不错的执行速度和效率。关键词： Apriori算法; Hadoop平台; 集群节点; 计算密集型任务; 大规模数据集; 作者简介：瞿诗齐 (1992-) , 男, 硕士研究生、助教, 主研方向:数据挖掘、智能诊断; 作者简介：刘少江, 硕士、助理实验师; 作者简介：倪伟传, 本科、助理工程师; 作者简介：余庆茂, 本科、网络工程师。收稿日期：2017-09-08 Research on accelerating Apriori algorithm of GPU cluster based on Hadoop platform Qu Shiqi Liu Shaojiang Ni Weichuan Yu Qingmao Xinhua College, Sun Yat-sen University; Abstract： In this paper, the traditional serial Apriori algorithm some of its drawbacks are introduced.In order to solve the problem of constrained node computing ability when calculating Apriori algorithm under Hadoop platform, the GPU with parallel capability and Hadoop are combined to propose a GPU-Hadoop Calculate the structure.With the framework of Map Reduce on the Hadoop platform, the nodes refer the computationally intensive tasks in the Apriori algorithm to GPU to process and reduce the operation time. Through the two groups of experiments, it is proved that the improved Apriori algorithm has a good execution speed and efficiency in the face of large-scale data set. Keyword： Apriori algorithm; Hadoop platform; Cluster node; Compute-intensive task; Large-scale dataset; Received： 2017-09-08 0概述伴随着存储技术的迅猛发展, 我们早就进入了一个大数据时代, 各行各业都有着庞大的数据库, 然而怎样在这些海量的数据中挖掘出有价值的信息成为一个难题[1]。分布式计算[2]靠着对大数据良好的处理能力而逐渐兴起, 它通过多个节点部署成一个集群, 每个节点并行处理计算后汇总来处理任务。然而, 针对Apriori算法来说, 集群中单个节点的计算能力极大的限制了算法的效率[3]。因此, 本文希望通过GPU强大的运算能力来改善这个问题, 提出了一种CPU和GPU协同工作的方式, 将GPU加入到现有的Hadoop平台中, 来增强集群中节点的计算能力。并且进行了一些对比实验, 来检测算法的运行效率。 1 Apriori算法的并行化并行化计算[4]是现代计算要求越来越高的产物, 更是现在高性能计算中非常实用的一种计算手段。它主要是把一个很复杂或者计算量很大的任务, 分割成很多互相不具关联性的小任务, 然后把这些许许多多的小任务利用多个处理器并行来完成, 最后把得到的结果汇总合并。通过这种方式有效的利用计算资源, 减少运算所需的时间, 提高算法效率。