网站大量收购闲置独家精品文档,联系QQ:2885784924

基于hadoop2.0并行数据处理应用毕业论文.doc

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于hadoop2.0并行数据处理应用毕业论文

电子科技大学成都学院云计算系 实践专周设计报告 课 程 名 称:基于Hadoop2.0并行数据处理应用 指导 教师 组: 邹倩颖 王小芳 组长学号姓名: 1341310131 屈太源 组员学号姓名: 1341310120 冯小丹 组员学号姓名: 1341310726 张 瑜 云计算科学与技术系制 2015年12月 目 录 第1章 引 言 1 1.1 问题分析 1 1.2 设计目标 1 1.2.1 基本功能 1 1.2.2 扩展功能 2 1.3 设计思路 2 1.4 功能描述 2 1.5 设计过程 3 第 4 2.1 Hadoop平台介绍 4 2.2 MapReduce并行程序设计 4 2.2.1 Map函数 4 2.2.2 Reduce函数 5 2.2.3 MapReduce计算模型的优化 5 2.3 HDFS简介 6 2.3.1 HDFS节点 6 2.3.2 关于NameNode 6 2.3.3 关于DataNode及体系结构图 7 第 8 3.1 搭建hadoop伪分布的环境 8 3.2 设置ssh免密码登本地 8 3.2.1 创建一个wifi 8 3.2.2 配置jdk 9 3.2.3 配置hadoop 9 3.2.4 测试hadoop是否搭建成功 12 第 13 4.1 第一案例要求 13 4.2 核心代码1 13 4.3 第二案例要求 16 4.4 核心代码2 16 第 20 5.1 集群测试和调试 20 5.2 集群系统存在的问题及解决方案 20 5.3 收获及心得体会 21 参考文献 22 致谢 23 引 言 问题分析 Hadoop是Apache软件基金会旗下的一个开源分布式计算机平台。以Hadoop分布式文件系统HDFS和MapReduce为核心的Hadoop为用户提供了系统底层细节透明的分布式架构。 Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。 设计目标 基本功能 Hadoop集群环境具体搭建工作,需要调用jps命令,启动5个服务进程,完成Eclipse环境搭建。 图1-1 集群搭建 扩展功能 1.编写手机拨打电信、联通、移动特殊号码的统计应用。 2.倒排索引的实现。 3.Hadoop集群环境搭建,需调用jps命名启动5个服务进程。 设计思路 环境搭建 1、安装前的准备 完成分布式集群环境的搭建,一个master节点,两个slave节点,在hosts中添加主从节点的IP地址。在hostname中修改主机名,并使其生效。在主要点中添加相应从节点的IP。在yarn-env.sh中添加Java_home的路径。 2、安装JDK JDK安装较为简单。 使用VMware Workstation 安装了3个RHEL 5.2系统。装好一个RHEL,并且安装好JDK,再利用VMware Workstation的克隆功能完成另外两个的安装。 3、更改主机名 IP设置: Master:16 Slave1:7 Slave2:3 功能描述 步骤1:用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。 步骤2:ResourceManager为该应用程序分配第一个Container(这里可以理解为一种资源比如内存),并与对应的Node-Manager通信,要求它在这个Container中启动应用程序的ApplicationMaster。 步骤3:ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManage查看应用程序的运行状态,然后它将为各个任务申请资源,并监控它的运行状态,直到运行结束,即重复步骤4~7。 步骤4:ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。 步骤5:一旦ApplicationMaster申请到资源后,便与对应的NodeManager通信,要求它启动任务。 步骤6:NodeManager为任务设置好运行环境(包括环境变量、JAR包、二进制程序等)后,将任务启动命令写到一个脚本中,并通过运行该脚本启动任务。 步骤7:各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,以让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务。在应用程序运行过程中,用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。 步骤8:应用程序运行完成后,ApplicationMaster向ResourceManager注销并关闭自己)

您可能关注的文档

文档评论(0)

海纳百川 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档