- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基干Spark大数据处理平台搭建与探讨
基于Spark的大数据处理平台的搭建与研究 摘要:该文阐述了Spark处理技术在大数据框架上的性能提升优势,分析了BDAS生态系统框架中Spark的任务处理流程图。详细说明了Spark集群的搭建过程和运行状态,并通过Spark Shell的交互界面进行交互式编程,实现对文本内容中单词出现次数的统计
关键词:大数据; Spark; 集群; Yarn; 交互式编程
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)15-0014-03
Abstract: The performance advantages of Spark processing technical in big data framework is described, the process flowchart of Spark in the framework of BDAS ecosystem is analyzed. The construction process and running state of Spark cluster are described in detail.Statistics on the number of words in the text content by interactive programming through the Shell Spark interactive interface.
Key words: big data; spark; cluster; yarn; interactive programming
随着计算机和信息技术的迅猛发展和普及,传统的计算技术和信息系统的处理能力已经无法满足数百TB甚至数十到数百PB规模的行业企业大数据,因此,处于大数据时代的今天,更为高效的大数据处理技术、方法和手段取得了巨大的发展
1 大数据处理技术概述
Hadoop和Spark两者都是大数据框架。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。而Spark是基于内存计算的大数据并行计算框架,它基于内存计算。相比Hadoop MapReduce,Spark在性能上提高了100倍[1],不仅提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性
Hadoop的MapReduce在过去10年的时间成了大数据处理的代名词,而Spark作为一个崭新的大数据生态系统,逐渐取代传统的MapReduce而成为新一代大数据处理技术。以下通过Spark集群大数据处理平台的搭建与测试来进行研究
2 Spark技术分析
2.1 Spark生态系统BDAS
目前Spark已经发展成为包含众多子项目的大数据计算平台。伯克利将Spark的整个生态系统成为伯克利数据分析栈(BDAS),其核心框架就是Spark,其他子项目在Spark上层提供了更高层、更丰富的计算范式。BDAS结构框架,如图1所示
2.2 Spark的任务处理流程图
Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。Spark将分布式数据抽象为天性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。其底层采用Scala函数式语言编写而成,并且所提供的API深度借鉴Scala函数式的编程思想,提供与Scala类似的编程接口。如图2为Spark的任务处理流程
3 Spark集群的安装与部署
实际应用中,Spark主要部署在Linux系统的集群中。如果要完整使用Spark,需要预先安装Hadoop,因此在Linux系统中安装Spark需要预先安装JDK、Scala等依赖。以1个Master节点和3个Slave节点进行部署,首先在主节点和子节点上完成基础步骤的安装,包括:JDK安装、Scala安装、配置SSH免密码登录、Hadoop安装配置及启动[3],然后再开始进行Spark集群的安装与部署
3.1 Spark集群的搭建
已经完成基础安装的1个主节点和3个子节点IP地址分别为:Master:60;Slave1: 61;Slave2: 62;Slave3: 63
1)下载并解压Spark安装文件
从官网下载spark1.3.1安装文件(集群采用的软件版本是Hadoop2.6.0和Spark1.3.1),并在主节点Master
文档评论(0)