基于MapReduce的SON算法实现.pdf

下载文档

356
0
约2.08万字
约 5页
2015-09-07 发布于湖北
举报
版权申诉
保障服务

基于MapReduce的SON算法实现.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Journal of Computer Applications ＩSSN 1001-90８1 201４-06-30 计算机应用,201４,3４(S1）：100－102,106 　 CODENJYＩＩDU　 http：/ / www．joca．cn 文章编号：1001-90８1（201４)S1-0100-03 基于ＭapReduce 的SON算法实现 1,2* 1,2 郭进伟 ,皮建勇（1．贵州大学计算机科学与技术学院,贵阳５５002５;　 2．贵州大学云计算与物联网研究中心,贵阳５５002５) ( *通信作者电子邮箱jinwei　guo@163．com）摘　要:在挖掘频繁项集的算法中,SON算法能够有效地降低 CPU和Ｉ/ O 负载,但是SON 算法在单节点上运行时仍然受限于内存和CPU;并且随着海量数据的来临,单节点也无法满足数据的存储。在深入研究SON算法的基础之上,提出了ＭapReduce编程模型实现SON算法的方法。算法的执行需要两轮ＭapReduce迭代,第一轮迭代求出局部频繁项集,第二轮迭代求出全局频繁项集。实验结果表明:SON 算法采用ＭapReduce 编程模型并行化后,部署在Ｈadoop集群上运行,随着分区数目的增加能够获取较好的加速比。关键词:数据挖掘;频繁项集;ＭapReduce;SON算法;Ｈadoop 中图分类号:TP311　　文献标志码:A ＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＳOＮａｌｇｏｒｉｔｈｍ bａｓｅｄｏｎ MａｐＲｅｄｕｃｅ 1,2* 1,2 GUOJinwei , PＩ Jianyong (1. College of Computer Science and Technology，Ｇuizhou University，Ｇuiyang Ｇuizhou５５002５， China； 2. Research Centre of Cloud Computing and Internet of Things，Ｇuizhou University，Ｇuiyang Ｇuizhou５５002５， China）Ａbｓｔｒａｃｔ：Ｉn algorithmsfor miningfrequent itemsets, SONalgorithm can effectively reduce CPUand Ｉ/ Ooverhead． But SON algorithm which runs on a single node is still limited by the memory and CPU of the node． Andwith the advent of mass data, single node cannot meet the requirements of data storage． Based on the research of SON algorithm, a SON algorithm paralleled by ＭapReduce paradigm was proposed． Execution of the algorithm required two ＭapReduce iterations． The first round gavethelocalfrequentitemsets, andthesecondroundworkedouttheglobalfrequentitemsets． Theexpe