- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用 Hadoop 进行分布式数据处理,第 2 部分 进阶
Hadoop 分布式计算架构的真正实力在于其分布性。换句话说,向工作并行分布多个节点的能力使 Hadoop 能够应用于大型基础设施以及大量数据的处理。本文首先对一个分布式 Hadoop 架构进行分解,然后探讨分布式配置和使用。
分布式 Hadoop 架构
根据?用 Hadoop 进行分布式数据处理,第 1 部分:入门,所有 Hadoop 守护进程都在同一个主机上运行。尽管不运用 Hadoop 的并行性,这个伪分布式配置提供一种简单的方式来以最少的设置测试 Hadoop 的功能。现在,让我们使用机器集群探讨一下 Hadoop 的并行性。
根据第 1 部分,Hadoop 配置定义了让所有 Hadoop 守护进程在一个节点上运行。因此,让我们首先看一下如何自然分布 Hadoop 来执行并行操作。在一个分布式 Hadoop 设置中,您有一个主节点和一些从节点(见图 1)。
图 1. Hadoop 主从节点分解??
如图 1 所示,主节点包括名称节点、从属名称节点和 jobtracker 守护进程(即所谓的主守护进程)。此外,这是您为本演示管理集群所用的节点(使用 Hadoop 实用程序和浏览器)。从节点包括 tasktracker 和数据节点(从属守护进程)。两种设置的不同之处在于,主节点包括提供 Hadoop 集群管理和协调的守护进程,而从节点包括实现 Hadoop 文件系统(HDFS)存储功能和 MapReduce 功能(数据处理功能)的守护进程。
对于该演示,在一个 LAN 上创建一个主节点和两个从节点。设置如图 2 所示。现在,我们来探讨用于多节点分布的 Hadoop 的安装和配置。
图 2. Hadoop 集群配置?
为简化部署,要运用虚拟化技术,该技术有几个好处。尽管在该设置中使用虚拟化技术看不出性能优势,但是它可以创建一个 Hadoop 安装,然后为其他节点克隆该安装。为此,您的 Hadoop 集群应显示如下:在一个主机上的虚拟机监控程序上下文中将主从节点作为虚拟机(VM)运行(见图 3)。
图 3. 虚拟环境中的 Hadoop 集群配置?
升级 Hadoop
我们安装了在一个节点上运行的 Hadoop 的一个特殊分布(伪配置)。在本文中,我们要更新分布式配置。如果您没有看过本系列的第 1 部分,那么请阅读第 1 部分,了解如何首先安装 Hadoop 伪配置。
在伪配置中,您没有进行任何配置,因为单个节点已经过预先配置。现在,您需要更新配置。首先,使用?update-alternatives?命令检查当前配置,如清单 1 所示。该命令告诉您,配置在使用 conf.pseudo(最高优先级)。
清单 1. 检查当前 Hadoop 配置
$ update-alternatives --display hadoop-0.20-conf
hadoop-0.20-conf - status is auto.
link currently points to /etc/hadoop-0.20/conf.pseudo
/etc/hadoop-0.20/conf.empty - priority 10
/etc/hadoop-0.20/conf.pseudo - priority 30
Current `best version is /etc/hadoop-0.20/conf.pseudo.
$
下一步,通过复制现有配置(本例中为 conf.empty,如清单 1 所示)创建一个新配置:
$ sudo cp -r /etc/hadoop-0.20/conf.empty /etc/hadoop-0.20/conf.dist
$
最后,激活并检查新配置:
清单 2. 激活并检查 Hadoop 配置
$ sudo update-alternatives --install /etc/hadoop-0.20/conf hadoop-0.20-conf \
/etc/hadoop-0.20/conf.dist 40
$ update-alternatives --display hadoop-0.20-conf
hadoop-0.20-conf - status is auto.
link currently points to /etc/hadoop-0.20/conf.dist
/etc/hadoop-0.20/conf.empty - priority 10
/etc/hadoop-0.20/conf.pseudo - priority 30
/etc/hadoop-0.20/conf.dist - priority 40
Current `best version is /etc/
您可能关注的文档
最近下载
- 2025南京市专业技术人员继续教育公需课答案:《从大模型到智能超算的思考》(100分).doc VIP
- GKG-GSE-印刷机使用说明书.pdf VIP
- 历史记载-中西闻见录20.pdf VIP
- 历史记载-中西闻见录19.pdf VIP
- 活跃气氛课前热身小游戏破冰课堂游戏看图猜成语.pptx
- 2025秋苏教版(2024)科学三年级上册第四单元空气的性质《14 称空气》教学设计.docx VIP
- 2025秋苏教版(2024)科学三年级上册第四单元空气的性质《13 吹气球》教学设计.docx VIP
- 2025秋苏教版(2024)科学三年级上册第四单元《16 风的形成》教学设计.docx VIP
- 干货调料食材配送服务投标方案(技术方案).doc
- 2025秋苏教版(2024)科学三年级上册第四单元《15热气球》教学设计.docx VIP
文档评论(0)