Linux教学资料汇编：Hadoop介绍.pptVIP

下载本文档

9
0
约2.29千字
约 22页
2018-01-15 发布于浙江
举报
版权申诉

Linux教学资料汇编：Hadoop介绍.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* * * * * * * * * * * * * Hadoop分布式计算系统主要内容 Hadoop项目简介 HDFS体系结构 NameNode DataNode 运算过程 Hadoop环境搭建 Hadoop项目简介 Apache的解决方案 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算 Hadoop项目简介 HDFS为了做到可靠性（reliability）创建了多份数据块（data blocks）的复制（replicas），并将它们放置在服务器群的计算节点中（compute nodes），MapReduce就可以在它们所在的节点上处理这些数据了。 HDFS体系结构 NameNode?Master DataNode?Chunksever NameNode NameNode 是一个通常在?HDFS?实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。对于最常见的 3 个复制块，第一个复制块存储在同一机架的不同节点上，最后一个复制块存储在不同机架的某个节点上。注意，这里需要您了解集群架构。 DataNode DataNode 也是一个通常在?HDFS实例中的单独机器上运行的软件。Hadoop 集群包含一个 NameNode 和大量 DataNode。DataNode 通常以机架的形式组织，机架通过一个交换机将所有系统连接起来。Hadoop 的一个假设是：机架内部节点之间的传输速度快于机架间节点的传输速度。运算过程由于Hadoop 使用专门为分布式计算设计的文件系统HDFS，计算的时候只需要将计算代码推送到存储节点上，即可在存储节点上完成数据本地化计算，Hadoop 中的集群存储节点也是计算节点。这里提供一个示例，帮助您理解它。假设输入域是 one small step for man,one giant leap for mankind。在这个域上运行 Map 函数将得出以下的键/值对列表：（one,1） (small,1） (step,1） (for,1） (man,1）MapReduce 流程的概念流 (one,1） (giant,1） (leap,1） (for,1） (mankind,1）如果对这个键/值对列表应用 Reduce 函数，将得到以下一组键/值对：（one,2） (small,1） (step,1） (for,2） (man,1）（giant,1） (leap,1） (mankind,1） Hadoop集群搭建一、实验环境 1、三台PC机，Linux操作系统各主机对应的ip地址： 1 ubuntu1 2 ubuntu2 3 ubuntu3 2、Hadoop安装包（/core/releases.html） 3、安装jdk 1.5以上版本 1、在所有的机器上建立相同的用户，例如：grid。 2、SSH配置，实现在机器之间执行指令的时候不需要输入密码。在ubuntu1（准备设为namenode）上生成密钥对，执行$ssh-keygen -t rsa，然后一路回车，就会按照默认的选项将生成的密钥对保存在.ssh/id_rsa文件中。执行： $cd ~/.ssh $cp id_rsa.pub authorized_keys $scp authorized_keys ubuntu2:/home/grid/.ssh $scp authorized_keys ubuntu3:/home/grid/.ssh 二、Hadoop安装 3、在ubuntu1上配置Hadoop。编辑conf/hadoop-site.xml 解压缩，执行：$ tar –zxvf ../hadoop-0.19.1.tar.gz 编辑conf/master，修改为master的主机名(每个主机名一行) ubuntu1 编辑conf/slaves，加入所有slaves的主机名 ubuntu2 ubuntu3 编辑所有机器的conf/hadoop-env.sh文件，将JAVA_HOME变量设置为各自JDK安装的根目录，不同机器可以使用不同的JAVA版本。 4、其它机器上的配置把Hadoop安装文件复制到其他机器上 $ scp –r hadoop-0.19.1 ubuntu2:/home/grid $ scp –r hadoop-0.19.1