分布式文件系统与MapReduce技术概览.pdfVIP

下载本文档

0
0
约3.07千字
约 2页
2026-03-15 发布于北京
举报

分布式文件系统与MapReduce技术概览.pdf

TheHadoopDistributedFileSystem

Hadoop分布式文件系统(HDFS)设计用于为大规模数据集可靠性的，同时能

够将数据集以高带宽的传输速率推送给用户应用程序。在一个大规模集群上，将会有数千

台的服务器同时负责数据及执行用户应用级的计算任务。通过将和计算分布到很

多个服务器上，使得和计算资源可以在保持低成本的情况下根据数据规模按需增长。

在本文中，我们会描述下HDFS的架构，以及我们在Yahoo!使用HDFS来管理25PB的企业

数据的相关经验。

TheFileSystem

我们设计并实现了GFS文件系统，一个面向大规模数据密集型应用的、可伸缩

的分布式文件系统。GFS虽然运行在廉价的普遍硬件设备上，但是它依然了冗余

的能力，为大量客户机了高性能的服务。

虽然GFS的设计目标与许多传统的分布式文件系统有很多相同之处，但是，我们的设计还

是以我们对自己的应用的负载情况和技术环境的分析为基础的，不管现在还是将来，GFS

和早期的分布式文件系统的设想都有明显的不同。所以我们重新审视了传统文件系统在设

计上的折衷选择，衍生出了完全不同的设计思路。

GFS完全满足了我们对的需求。GFS作为经被广泛的部署在，

我们的服务产生和处理的数据，同时还用于那些需要大规模数据集的研究和开发工

作。目前为止，最大的一个集群利用数千台机器的数千个硬盘，了数百TB的空

间，同时为数百个客户机服务。

在本中，我们展示了能够支持分布式应用的文件系统接口的扩展，讨论我们设计的许

多方面，最后列出了小规模性能测试以及生产系统中性能相关数据。

MapReduce:SimplifiedDataProcessingonLargeClusters

MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理

一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所

有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的

工作.

以这种方式写的程序能自动的在大规模的普通机器上实现并行化.这个运行时系统关心这些

细节:分割输入数据,在机群上的调度,机器的错误处理,管理机器之间必要的通信.这样就可

以让那些没有并行分布式处理系统经验的程序员利用大量分布式系统的资源.

我们的MapReduce实现运行在规模可以灵活调整的由普通机器组成的机群上,一个典型的

MapReduce计算处理几千台机器上的以TB计算的数据.程序员发现这个系统非常好用:已经

实现了数以百计的MapReduce程序,每天在的机群上都有1000多个MapReduce程序

在执行.

HDFSscalability:thelimitstogrowth

HDFS是一个用于大规模数据处理的开源系统。本文基于在当前最大规模的HDFS部署

集群上的经验，对一个单个名字空间服务器的RAM空间与Hadoop集群的能力之间

的关系进行了分析，简单描述了下单节点名字空间服务器的线性性能可扩展性，同时指出

了该架构实际存在的一些限制。这些研究结果可以用于其他类似的分布式文件系统中。

AddressingBigDataProblemUsingHadoopandMapReduce

如今，企业所使用的数据库的规模每天都再以极快的速度增长。与此同时，作出商

业决策对处理分析大量数据的要求也月来越高。在某些商业、科研机构中，一种高效的可以

每天处理TB级数据的方法成为必要。考虑到当前的数据库系统和软件工具不具有在可

时间内处理大量数据的能力，这样的方法对当前产业所的大数据问题是很有帮助的。数

据处理包括许多操作像检索、标记、搜索、修改等等。让一台或几台及其在有限时间内

分布式文件系统与MapReduce技术概览.pdfVIP

分布式文件系统与MapReduce技术概览.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档