- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向R语言的分布式流处理系统设计与实现.pdf
第 16卷 第2期 2016年 1月 科 学 技 术 与 工 程 Vo1.16 No.02 Jan.2016
1671— 1815(2016)02—0208—06 ScienceTechnologyandEngineering ⑥ 2016 Sci.Tech.Engrg.
面向R语言的分布式流处理系统设计与实现
高官涛 郑小盈 李明齐
(中国科学院上海高等研究院 ,上海 201210,中国科学院大学。,北京 100190)
摘 要 为了使得在数据分析领域广泛使用的R语言能够应用于大规模数据的分布式流处理计算,基于SparkStreaming框
架,设计和实现了一个面向R语言的分布式流处理系统。系统提出了一套完备的R/Java跨语言交互模型,实现了R语言程
序和Java程序的互相调用,从而使得R语言程序可以运行在Java平台上,改进 了R语言在大规模数据处理和并发计算等方
面的不足。系统也提供了SparkStreaming的R语言编程接 口,提高了后者的易用性。通过实例验证了该系统的可行性和实用
性。
关键词 流处理 分布式系统 并行计算 R语言 SparkStreaming
中图法分类号 TP302.1; 文献标志码 A
大数据中深藏着知识和规律,由此可以获得巨 而流处理程序对新数据从接收到完成处理再到做出
大的经济价值。某一类问题 中,隐藏在大数据之中 响应必须控制在分钟级或者秒级以内。
的知识和规律明显具有严格的时效性,比如社交网 目前 比较有代表性的分布式流处理系统包括
MapReduceOnline[ Spark Streaming[ Storm [
络的热点发现、网络 日志的异常检测。这类问题往 、 、 、
往需要大规模并行计算和在线数据实时分析相关技 S4 等。MapReduceOnline基于Hadoop实现,可以
术,即分布式流处理。现有的分布式流处理系统 已 复用 Hadoop的现有软件栈,但是由于Hadoop计算
经可以满足大多数的计算任务,但是存在学习成本 时延较大,所以MapReduceOnline性能不高。Spark
较高、易用性较差的问题。R语言是一 门易学易用 Streaming将在 1.2节介绍。Stomr 由Twitter公司开
的编程语言,特别是在统计和数据分析领域使用广 发,性能卓越,支持事务型计算,因而得到了广泛应
泛,但是它在并行计算、大规模数据处理等方面能力 用,却存在部署困难,学习成本较高的问题。S4采
偏弱。我们综合现有流处理系统和 R语言各 自的 用去中心的架构设计,可以实现高吞吐率和低延迟,
长处,设计 了一个 面 向 R语 言的分布式流处理 但是由于在传递保证等方面的不足,限制了它的使
系统 。 用场景。
1.2 Spark Stream ing
1 国内外研究进展 Spark5是加州大学伯克利分校 AMPLab实验
1.1 流处理技术 室开发的一个大数据计算框架,支持 MapReduce计
流处理 (streamprocessing)是一个 比较宽泛的 算范式 J。Spark借鉴函数式编程的思想,提出了
概念。在大数据领域,流处理指的是对在线数据进 弹性分布式数据数据集 (resilientdistributeddata.
行实时分析的技术。流处理的概念是相对于批处理 sets,RDD),充分利用内存计算技术,具有极高的计
而提出的。批处理和
您可能关注的文档
最近下载
- 冬季施工设计方案.pdf VIP
- 第八章遥感岩性解译与编图资料.ppt VIP
- 服装厂缝纫机资料_兄弟LBH-B814_平头锁眼机服务手册.pdf VIP
- 电大《机电控制和可编程序控制器技术》课程设计报告报告.pdf VIP
- 英语发展史_教学课件 Part 1Early_Modern_English_1.docx VIP
- 2025年浙江省湖州市德清县雷甸镇国民经济和社会发展第十五个五年规划.docx VIP
- 东洋ED64SP-JP变频器说明书.pdf
- 英语发展史_教学课件 Part 1General_Introduction.ppt VIP
- 冠脉介入培训试题及答案.docx VIP
- 2025年冠脉介入培训试题及答案解析.docx VIP
文档评论(0)