(用Hadoop进行分布式并行编程2.docxVIP

下载本文档

5
0
约1万字
约 11页
2017-01-25 发布于北京
举报

(用Hadoop进行分布式并行编程2.docx

(用Hadoop进行分布式并行编程2

用Hadoop进行分布式并行编程（二）（注：本文档来自hadoop in china）程序实例与分析Hadoop 是一个实现了MapReduce 计算模型的开源分布式并行编程框架，借助于Hadoop, 程序员可以轻松地编写分布式并行程序，将其运行于计算机集群上，完成海量数据的计算。在本文中，详细介绍了如何针对一个具体的并行计算任务，基于Hadoop 编写程序，如何使用 IBM MapReduce Tools 在 Eclipse 环境中编译并运行 Hadoop 程序。前言在上一篇文章：“用 Hadoop 进行分布式并行编程第一部分基本概念与安装部署”中，介绍了 MapReduce 计算模型，分布式文件系统 HDFS，分布式并行计算等的基本原理, 并且详细介绍了如何安装 Hadoop，如何运行基于 Hadoop 的并行程序。在本文中，将针对一个具体的计算任务，介绍如何基于 Hadoop 编写并行程序，如何使用 IBM 开发的 Hadoop Eclipse plugin 在 Eclipse 环境中编译并运行程序。分析 WordCount 程序我们先来看看 Hadoop 自带的示例程序 WordCount，这个程序用于统计一批文本文件中单词出现的频率，完整的代码可在下载的 Hadoop 安装包中得到(在 src/examples 目录中)。1.实现Map类见代码清单1。这个类实现 M

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

(用Hadoop进行分布式并行编程2.docxVIP