Hadoop分布式文件系统:结构与设计.docVIP

  • 4
  • 0
  • 约 6页
  • 2016-01-08 发布于安徽
  • 举报
Hadoop分布式文件系统:结构与设计1. 介绍   Hadoop 分布式文件系统 (HDFS)是一个设计为用在普通硬件设备上的分布式文件系统。它与现有的分布式文件系统有很多近似的地方,但又和这些文件系统有很明显的不同。HDFS 是高容错的,设计为部署在廉价硬件上的。HDFS对应用程序的数据提供高吞吐量,而且适用于那些大数据集应用程序。HDFS开放了一些POSIX的必须接口,容许流式访问文件系统的数据。HDFS最初是为了Apache 的Nutch网络搜索引擎项目的下层构件而设计的。是Hadoop项目的一部分,而这又是Apache的 Lucene项目的一部分。本项目的地址是: /projects/hadoop.html。   2. 假设与目标   2.1. 硬件错误   硬件错误是正常的,而不是异常。HDFS实例由成百上千个服务器组成,每个都存储着文件系统的一部分数据。事实上,这就会有大量的组件,而 每个组件出故障的可能性都很大,这意味着HDFS总有一些组件是不能工作的。因此,检测错误并快速自动恢复就成了HDFS的核心设计目标。   2.2. 流式数据访问   运行在HDFS上的应用程序需要流式的访问它们的数据集,它们也不是通常运行在普通文件系统上的普通应用程序。HDFS为了那些批量处理而 设计的,而不是为普通用户的交互使用。强调的是数据访问的高吞吐量而不是数据访问的低反应时间。PO

文档评论(0)

1亿VIP精品文档

相关文档