基于hadoop的词频统计.docx

下载文档

0
0
约1.75万字
约 38页
2025-04-20 发布于北京
举报
版权申诉
保障服务

基于hadoop的词频统计.docx

1、本文档共38页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

code711.cn

PAGEI

摘要

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统，简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求，可以以流的形式访问文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

关键词：hadoop，MapReduce，云计算，hdfs

TOC\o1-3\h\z\u摘要 I

一、前言 1

二、基本原理 2

（一）、hadoop 2

（二）、hdfs 2

1、namenode 2

2、SecondayNameNode 2

3、datanode 2

（三）、MapReduce 3

1、MapReduce概念 3

2、MapReduce的结构体系 3

三、系统分析 4

（一）、HDFS-文件存储结构 4

1、读数据 4

2、写数据 4

（二）、MapReduce过程框图 4

1、Map和Reduce 4

2、Shuffle连接Map和Reduce阶段 5

（三）、Yarn-虚拟操作系统/资源调度/任务管理 5

1、集群资源的管理 5

2、任务调度-三大进程 5

四、详细设计 7

（一）、centos虚拟机搭建 7

1、准备阶段 7

2、搭建步骤 7

（二）、hadoop集群搭建 11

1、准备阶段 11

2、搭建步骤 12

3、服务分配 16

4、配置ssh免密登录 16

5、启动hadoop集群 16

（三）、Java操作hdfs文件系统 17

1、maven配置（基于idea编辑器） 17

2、编写java操作hdfs文件的代码 18

（四）、MapReduce编写词频统计jar包 18

1、map函数 18

2、reduce函数 19

3、主函数 19

4、导出编写好的MapReducejar包 19

五、程序测试 20

（一）、上传目标文档hamlet.txt到hdfs 20

1、准备文件 20

2、运行编写好的java操作hdfs文件的代码 20

（二）、开始云计算词频统计 20

1、xshell命令行执行刚才传到master.hadoop上的wordcount.jar 20

2、查看词频统计是否成功 21

（三）、下载结果文件到windows目录 21

1、词频统计成功后 21

（四）、验证计算结果 22

1、抽查MapReduce计算的词频数是否正确 22

六、设计总结 23

七、附录（代码程序） 24

（一）、java操作hdfs文件代码 24

（二）、MapReduce代码 26

（三）、pom.xml文件配置代码 29

八、参考文献 31

九、致谢 32

一、前言

本课程设计要求学生学习Hadoop的基本概念如MapReduce、HDFS等，搭建Hadoop平台进行相应的设计，掌握在LINUX下常用命令，并掌握Hadoop的基本操作；通过MapReduce编程，以哈姆雷特为研究对象，进行词频统计，统计单个或者多个文本文件中每个词汇出现的次数；了解Hadoop分布式文件系统（HDFS）是hadoop上部署的存储架构，熟练应用Hadoop对HDFS文件进行创建和读写等操作。通过本课程设计，建立起对Hadoop云计算的初步了解，最后通过Hadoop平台实现结果的显示。

Hadoop起源于ApacheNutch项目，始于2002年，是ApacheLucene的子项目之一。2004年，Google在“操作系统设计与实现”（OperatingSystemDesignandImplementation，OSDI）会议上公开发表了题为MapReduce：SimplifiedDataProcessingonLargeClusters（Mapreduce：简化大规模集群上的数据处理）的论文之后，受到启发的DougCutting等人开始尝试实现MapReduce计算框架，并将它与NDFS（NutchDistribu