- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SparkonYARN环境搭建精要
Spark on YARN环境搭建
1、简介
环境搭建准备:Hadoop2.6.4+Spark1.6.0-bin-hadoop2.6+Zookeeper3.4.6+jdk1..8
1.1 hadoop介绍
HYPERLINK /view/908354.htm \t _blank Hadoop是一个由Apache基金会所开发的 HYPERLINK /view/991489.htm \t _blank 分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
?Hadoop实现了一个 HYPERLINK /view/771589.htm \t _blank 分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高 HYPERLINK /view/2700299.htm \t _blank 容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问 HYPERLINK /view/330120.htm \t _blank 应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。
简单归纳一下:
1、Mapreduce是一种模式。
2、Hadoop是一种框架。
3、Hadoop是一个实现了mapreduce模式的开源的分布式并行编程框架。
mapreduce是一种模式,一种云计算的核心计算模式,一种分布式运算技术,也是简化的分布式编程模式,它主要用于解决问题的程序开发模型,也是开发人员拆解问题的方法。
本文介绍hadoop和hbase集群搭建的主要目的是在hadoop的框架上采取mapreduce的模式处理海量数据。
Hadoop是一个能够让用户轻松架构和使用的 HYPERLINK /subview/30655htm \t _blank 分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的 HYPERLINK /view/330120.htm \t _blank 应用程序。它主要有以下几个优点:
高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的 HYPERLINK /view/1603996.htm \t _blank 动态平衡,因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
以上介绍了hadoop的概念,优点等方面的内容,接下来再深入了解mapreduce模式和hadoop框架。
Mapreduce模式
如下图所示,mapreduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方式,流程图如下图1所示:
在数据被分割后通过Map 函数的程序将数据映射成不同的区块,分配给计算机机群处理达到分布式运算的效果,在通过Reduce 函数的程序将结果汇整,从而输出开发者需要的结果。
MapReduce 借鉴了函数式程序设计语言的设计思想,其软件实现是指定一个Map 函数,把键值对(key/value)映射成新的键值对(key/value),形成一系列中间结果形式的key/value 对,然后把它们传给Reduce(规约)函数,把具有相同中间形式key 的value 合并在一起。Map 和Reduce 函数具有一定的关联性。函数描述如表1 所示:
MapReduce致力于解决大规模数据处理的问题,因此在设计之初就考虑了数据的局部性原理,利用局部性原理将整个问题分而治之。MapReduce集群由普通PC机构成,为无共享式架构。在处理之前,将数据集分布至各个节点。处理时,每个节点就近读取本地存储的数据处理(map),将处理后的数据进行合并(combine)、排序(shuffle and sort)后再分发(至reduce节点),避免了大量数据的传输,提高了处
您可能关注的文档
最近下载
- 《GBT 42457-2023工业自动化和控制系统信息安全 产品安全开发生命周期要求》最新解读.pptx VIP
- 有色行业月跟踪:掘金亚欧大陆腹地,中亚金属矿产资源全景解析.docx
- 第2课 使用数字设备 教案 义务教育人教版信息科技三年级全一册.docx VIP
- 叉车安全培训.pptx VIP
- 一种无位置传感器的无刷电机初始位置检测方法.pdf VIP
- 2025年高考英语备战:高中英语(新教材)人教版必修一至选修四单词汇总.docx VIP
- 机电工程质量管理重难点.docx VIP
- 叉车操作安全培训.pptx VIP
- 专题专练 基本不等式(解析版)_1.docx VIP
- 《第1课 寻找信息科技》精品教案.docx VIP
文档评论(0)