面向R语言的分布式流处理系统设计与实现.pdf

面向R语言的分布式流处理系统设计与实现.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向R语言的分布式流处理系统设计与实现.pdf

第 16卷 第2期 2016年 1月 科 学 技 术 与 工 程 Vo1.16 No.02 Jan.2016 1671— 1815(2016)02—0208—06 ScienceTechnologyandEngineering ⑥ 2016 Sci.Tech.Engrg. 面向R语言的分布式流处理系统设计与实现 高官涛 郑小盈 李明齐 (中国科学院上海高等研究院 ,上海 201210,中国科学院大学。,北京 100190) 摘 要 为了使得在数据分析领域广泛使用的R语言能够应用于大规模数据的分布式流处理计算,基于SparkStreaming框 架,设计和实现了一个面向R语言的分布式流处理系统。系统提出了一套完备的R/Java跨语言交互模型,实现了R语言程 序和Java程序的互相调用,从而使得R语言程序可以运行在Java平台上,改进 了R语言在大规模数据处理和并发计算等方 面的不足。系统也提供了SparkStreaming的R语言编程接 口,提高了后者的易用性。通过实例验证了该系统的可行性和实用 性。 关键词 流处理 分布式系统 并行计算 R语言 SparkStreaming 中图法分类号 TP302.1; 文献标志码 A 大数据中深藏着知识和规律,由此可以获得巨 而流处理程序对新数据从接收到完成处理再到做出 大的经济价值。某一类问题 中,隐藏在大数据之中 响应必须控制在分钟级或者秒级以内。 的知识和规律明显具有严格的时效性,比如社交网 目前 比较有代表性的分布式流处理系统包括 MapReduceOnline[ Spark Streaming[ Storm [ 络的热点发现、网络 日志的异常检测。这类问题往 、 、 、 往需要大规模并行计算和在线数据实时分析相关技 S4 等。MapReduceOnline基于Hadoop实现,可以 术,即分布式流处理。现有的分布式流处理系统 已 复用 Hadoop的现有软件栈,但是由于Hadoop计算 经可以满足大多数的计算任务,但是存在学习成本 时延较大,所以MapReduceOnline性能不高。Spark 较高、易用性较差的问题。R语言是一 门易学易用 Streaming将在 1.2节介绍。Stomr 由Twitter公司开 的编程语言,特别是在统计和数据分析领域使用广 发,性能卓越,支持事务型计算,因而得到了广泛应 泛,但是它在并行计算、大规模数据处理等方面能力 用,却存在部署困难,学习成本较高的问题。S4采 偏弱。我们综合现有流处理系统和 R语言各 自的 用去中心的架构设计,可以实现高吞吐率和低延迟, 长处,设计 了一个 面 向 R语 言的分布式流处理 但是由于在传递保证等方面的不足,限制了它的使 系统 。 用场景。 1.2 Spark Stream ing 1 国内外研究进展 Spark5是加州大学伯克利分校 AMPLab实验 1.1 流处理技术 室开发的一个大数据计算框架,支持 MapReduce计 流处理 (streamprocessing)是一个 比较宽泛的 算范式 J。Spark借鉴函数式编程的思想,提出了 概念。在大数据领域,流处理指的是对在线数据进 弹性分布式数据数据集 (resilientdistributeddata. 行实时分析的技术。流处理的概念是相对于批处理 sets,RDD),充分利用内存计算技术,具有极高的计 而提出的。批处理和

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档