Hadoop环境配置与实验报告.docxVIP

下载本文档

186
0
约2.25万字
约 30页
2021-09-06 发布于广东
举报
版权申诉

Hadoop环境配置与实验报告.docx

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

研究生课程考试成绩单（试卷封面）院系计算机科学与工程专业计算机科学与技术学生姓名李富豪学号 131440 课程名称计算机新技术综合实践授课时间 2014 年 4 月至 2014 年 6 月周学时 1 学分 2 简要评语（1）小组答辩过程表述很清晰；（2）实验结果的演示表明搭建的系统以及编写的程序很好地满足功能要求；（3）报告内容很好地符合要求。考核论题总评成绩（含平时成绩）备注任课教师签名：日期： 2014.7 注：1. 以论文或大作业为考核方式的课程必须填此表，综合考试可不填。“简要评语”栏缺填无效。任课教师填写后与试卷一起送院系研究生秘书处。学位课总评成绩以百分制计分。 PAGE 10 PAGE 10 hadoop 环境配置与试验报告 hadoop 环境配置与试验报告 PAGE 13 目录集群部署介绍 3 Hadoop 简介 3 环境说明 3 网络配置 3 编辑当前机器名称 3 修改当前机器 IP 4 配置 hosts 文件 4 所需软件 6 JDK 软件 6 Hadoop 软件 6 SSH 无密码验证配置 6 安装和启动 SSH 协议 6 配置 Master 无密码登录所有 Salve 6 配置所有 Slave 无密码登录 Master 9 Java 环境安装 9 安装 JDK 10 配置环境变量 10 编辑/etc/profile文件 10 添加 Java 环境变量 10 使配置生效 10 验证安装成功 10 安装剩余机器 11 Hadoop 集群安装 11 安装 hadoop 11 在/usr/hadoop创建tmp文件夹 11 配置/etc/profile 11 重启/etc/profile 12 配置 hadoop 12 配置 hadoop-env.sh 12 配置 core-site.xml 文件 12 配置 hdfs-site.xml 文件 13 配置 mapred-site.xml 文件 14 配置 masters 文件 14 配置 slaves 文件 15 启动及验证 16 格式化 HDFS 文件系统 16 启动 hadoop 16 验证 hadoop 17 关闭 hadoop 19 网页查看集群 19 访问http://localhost:50030 19 访问 http://localhost:50070 20 实验部分 20 实验内容 20 实验数据生成 20 实验过程 24 实验结果 28 遇到的问题及解决 30 集群部署介绍 Hadoop简介 Hadoop 是 Apache 软件基金会旗下的一个开源分布式计算平台。以 Hadoop 分布式文件系统（HDFS，Hadoop Distributed Filesystem）和 MapReduce（Google MapReduce 的开源实现）为核心的 Hadoop 为用户提供了系统底层细节透明的分布式基础架构。对于 Hadoop 的集群来讲，可以分成两大类角色：Master 和 Salve。一个 HDFS 集群是由一个 NameNode 和若干个 DataNode 组成的。其中 NameNode 作为主服务器，管理文件系统的命名空间和客户端对文件系统的访问操作；集群中的 DataNode 管理存储的数据。MapReduce 框架是由一个单独运行在主节点上的 JobTracker 和运行在每个集群从节点的 TaskTracker 共同组成的。主节点负责调度构成一个作业的所有任务，这些任务分布在不同的从节点上。主节点监控它们的执行情况，并且重新执行之前的失败任务；从节点仅负责由主节点指派的任务。当一个 Job 被提交时，JobTracker 接收到提交作业和配置信息之后，就会将配置信息等分发给从节点，同时调度任务并监控 TaskTracker 的执行。从上面的介绍可以看出，HDFS 和 MapReduce 共同组成了 Hadoop 分布式系统体系结构的核心。HDFS 在集群上实现分布式文件系统，MapReduce 在集群上实现了分布式计算和任务处理。HDFS 在 MapReduce 任务处理过程中提供了文件操作和存储等支持，MapReduce 在 HDFS 的基础上实现了任务的分发、跟踪、执行等工作，并收集结果，二者相互作用，完成了 Hadoop 分布式集群的主要任务。环境说明集群中包括 4 个节点：1 个 Master，3 个 Salve，节点之间局域网连接，可以相互 ping 通