- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于hadoop2.0并行数据处理应用毕业论文
电子科技大学成都学院云计算系
实践专周设计报告
课 程 名 称:基于Hadoop2.0并行数据处理应用
指导 教师 组: 邹倩颖 王小芳
组长学号姓名: 1341310131 屈太源
组员学号姓名: 1341310120 冯小丹
组员学号姓名: 1341310726 张 瑜
云计算科学与技术系制
2015年12月
目 录
第1章 引 言 1
1.1 问题分析 1
1.2 设计目标 1
1.2.1 基本功能 1
1.2.2 扩展功能 2
1.3 设计思路 2
1.4 功能描述 2
1.5 设计过程 3
第 4
2.1 Hadoop平台介绍 4
2.2 MapReduce并行程序设计 4
2.2.1 Map函数 4
2.2.2 Reduce函数 5
2.2.3 MapReduce计算模型的优化 5
2.3 HDFS简介 6
2.3.1 HDFS节点 6
2.3.2 关于NameNode 6
2.3.3 关于DataNode及体系结构图 7
第 8
3.1 搭建hadoop伪分布的环境 8
3.2 设置ssh免密码登本地 8
3.2.1 创建一个wifi 8
3.2.2 配置jdk 9
3.2.3 配置hadoop 9
3.2.4 测试hadoop是否搭建成功 12
第 13
4.1 第一案例要求 13
4.2 核心代码1 13
4.3 第二案例要求 16
4.4 核心代码2 16
第 20
5.1 集群测试和调试 20
5.2 集群系统存在的问题及解决方案 20
5.3 收获及心得体会 21
参考文献 22
致谢 23
引 言
问题分析
Hadoop是Apache软件基金会旗下的一个开源分布式计算机平台。以Hadoop分布式文件系统HDFS和MapReduce为核心的Hadoop为用户提供了系统底层细节透明的分布式架构。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。
设计目标
基本功能
Hadoop集群环境具体搭建工作,需要调用jps命令,启动5个服务进程,完成Eclipse环境搭建。
图1-1 集群搭建
扩展功能
1.编写手机拨打电信、联通、移动特殊号码的统计应用。
2.倒排索引的实现。
3.Hadoop集群环境搭建,需调用jps命名启动5个服务进程。
设计思路
环境搭建
1、安装前的准备
完成分布式集群环境的搭建,一个master节点,两个slave节点,在hosts中添加主从节点的IP地址。在hostname中修改主机名,并使其生效。在主要点中添加相应从节点的IP。在yarn-env.sh中添加Java_home的路径。
2、安装JDK
JDK安装较为简单。
使用VMware Workstation 安装了3个RHEL 5.2系统。装好一个RHEL,并且安装好JDK,再利用VMware Workstation的克隆功能完成另外两个的安装。
3、更改主机名
IP设置:
Master:16
Slave1:7
Slave2:3
功能描述
步骤1:用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。
步骤2:ResourceManager为该应用程序分配第一个Container(这里可以理解为一种资源比如内存),并与对应的Node-Manager通信,要求它在这个Container中启动应用程序的ApplicationMaster。
步骤3:ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManage查看应用程序的运行状态,然后它将为各个任务申请资源,并监控它的运行状态,直到运行结束,即重复步骤4~7。
步骤4:ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。
步骤5:一旦ApplicationMaster申请到资源后,便与对应的NodeManager通信,要求它启动任务。
步骤6:NodeManager为任务设置好运行环境(包括环境变量、JAR包、二进制程序等)后,将任务启动命令写到一个脚本中,并通过运行该脚本启动任务。
步骤7:各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,以让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务。在应用程序运行过程中,用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。
步骤8:应用程序运行完成后,ApplicationMaster向ResourceManager注销并关闭自己)
您可能关注的文档
- 红日·江山b标段工程模板工程专项施工方案毕业论文.doc
- 千斤顶液压缸加工机床电气控制系统设计毕业论文.doc
- 考查课专业论文近视眼镜的品牌策划毕业论文.doc
- 公交线路转乘选择的优化-模型毕业设计.doc
- ccc有限责任公司1000吨日铅锌、1000吨日萤石洗选厂技术改造项目建议方案书毕业论文.doc
- 35kv箱式变压器采购合同附件(技术部分)毕业设计.doc
- 班级成绩管理系统毕业论文.doc
- 引进新型煤气发生炉新技术项目清洁生产审核报告毕业设计.doc
- 柴油机高压共轨系统的研究毕业论文.doc
- 多级冲动式背压汽轮机课程设计说明书毕业论文.doc
- 完整版汽车维修工(考评员、高级考评员) 练习题大全带解析答案.docx
- 完整版汽车修理工(初级)资格考试精品题库【夺冠】.docx
- 完整版汽车修理工(初级)资格考试附参考答案(综合题).docx
- 完整版汽车维修工(考评员、高级考评员) 练习题王牌题库有精品答案.docx
- 完整版汽车修理工(初级)资格考试题库含答案(名师推荐).docx
- 完整版汽车维修工(考评员、高级考评员) 练习题真题及答案(名校卷).docx
- 完整版汽车修理工(初级)资格考试题库大全附参考答案(基础题).docx
- 完整版汽车维修工(考评员、高级考评员) 练习题真题题库有完整答案.docx
- 完整版汽车维修工(考评员、高级考评员) 练习题完整版有精品答案.docx
- 完整版汽车维修工(考评员、高级考评员) 练习题王牌题库a4版可打印.docx
文档评论(0)