- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
code711.cn
PAGEI
摘要
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统,简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。
关键词:hadoop,MapReduce,云计算,hdfs
目录
TOC\o1-3\h\z\u摘要 I
一、前言 1
二、基本原理 2
(一)、hadoop 2
(二)、hdfs 2
1、namenode 2
2、SecondayNameNode 2
3、datanode 2
(三)、MapReduce 3
1、MapReduce概念 3
2、MapReduce的结构体系 3
三、系统分析 4
(一)、HDFS-文件存储结构 4
1、读数据 4
2、写数据 4
(二)、MapReduce过程框图 4
1、Map和Reduce 4
2、Shuffle连接Map和Reduce阶段 5
(三)、Yarn-虚拟操作系统/资源调度/任务管理 5
1、集群资源的管理 5
2、任务调度-三大进程 5
四、详细设计 7
(一)、centos虚拟机搭建 7
1、准备阶段 7
2、搭建步骤 7
(二)、hadoop集群搭建 11
1、准备阶段 11
2、搭建步骤 12
3、服务分配 16
4、配置ssh免密登录 16
5、启动hadoop集群 16
(三)、Java操作hdfs文件系统 17
1、maven配置(基于idea编辑器) 17
2、编写java操作hdfs文件的代码 18
(四)、MapReduce编写词频统计jar包 18
1、map函数 18
2、reduce函数 19
3、主函数 19
4、导出编写好的MapReducejar包 19
五、程序测试 20
(一)、上传目标文档hamlet.txt到hdfs 20
1、准备文件 20
2、运行编写好的java操作hdfs文件的代码 20
(二)、开始云计算词频统计 20
1、xshell命令行执行刚才传到master.hadoop上的wordcount.jar 20
2、查看词频统计是否成功 21
(三)、下载结果文件到windows目录 21
1、词频统计成功后 21
(四)、验证计算结果 22
1、抽查MapReduce计算的词频数是否正确 22
六、设计总结 23
七、附录(代码程序) 24
(一)、java操作hdfs文件代码 24
(二)、MapReduce代码 26
(三)、pom.xml文件配置代码 29
八、参考文献 31
九、致谢 32
一、前言
本课程设计要求学生学习Hadoop的基本概念如MapReduce、HDFS等,搭建Hadoop平台进行相应的设计,掌握在LINUX下常用命令,并掌握Hadoop的基本操作;通过MapReduce编程,以哈姆雷特为研究对象,进行词频统计,统计单个或者多个文本文件中每个词汇出现的次数;了解Hadoop分布式文件系统(HDFS)是hadoop上部署的存储架构,熟练应用Hadoop对HDFS文件进行创建和读写等操作。通过本课程设计,建立起对Hadoop云计算的初步了解,最后通过Hadoop平台实现结果的显示。
Hadoop起源于ApacheNutch项目,始于2002年,是ApacheLucene的子项目之一。2004年,Google在“操作系统设计与实现”(OperatingSystemDesignandImplementation,OSDI)会议上公开发表了题为MapReduce:SimplifiedDataProcessingonLargeClusters(Mapreduce:简化大规模集群上的数据处理)的论文之后,受到启发的DougCutting等人开始尝试实现MapReduce计算框架,并将它与NDFS(NutchDistribu
您可能关注的文档
- AD9959数据手册中文版_ad9959中文数据手.docx
- 利用KEPSERVER6+实现写入SQLSERVER.docx
- 基于Android和Spring Boot的心理互助社区系统设计与实现.docx
- AI法律助手:ChatGPT如何提供智能化解决方案.docx
- Teamcenter11SSO单点登录配置_tea.docx
- 最优控制与智能控制基础文献课程报告_最优控制结课论.docx
- S7-1200CANopen模块与台达伺服的通讯_.docx
- 数电课程设计报告-《八路数字抢答器》_多路抢答器的.docx
- 戴尔服务器安装centos步骤.docx
- QQ空间测试综合实验报告资源.docx
- 部编版一年级语文下册第四单元《8 夜色》教学课件(2025年春-新编教材).pptx
- 江苏省盐城市五校2024-2025学年高一下学期4月期中联考数学试卷(含答案).pdf
- 2025年高一语文教师工作总结简单版(六).docx
- 第12课《台阶》课件 2024—2025学年统编版语文七年级下册(共39张PPT).pptx
- 部编版一年级语文下册第四单元《语文园地四》教学课件(2025年春-新编教材).pptx
- 部编版一年级语文下册第四单元《9 端午粽》教学课件(2025年春-新编教材).pptx
- 指导技能的关键要素与提升的策略研究与分享.docx
- 湖南省永州四中直升班2025届高三(下)适应性数学试卷(含答案).pdf
- 湖北省荆荆宜襄·四地七校联盟2024-2025学年高一(下)期中联考数学试卷(含答案).pdf
- 2025年04月17日袁荣的初中历史组卷.docx
文档评论(0)