- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop
Hadoop
HHaaddoooopp分布式文件系统:结构与设计
目录
1.
1.
11.. 介绍
Hadoop 分布式文件系统 (HDFS)是一个设计为用在普通硬件设备上的分布式文件
系统。它与现有的分布式文件系统有很多近似的地方,但又和这些文件系统有很明显的不
同。HDFS是高容错的,设计为部署在廉价硬件上的。HDFS对应用程序的数据提供高吞吐
量,而且适用于那些大数据集应用程序。HDFS开放了一些POSIX的必须接口,容许流式
访问文件系统的数据。HDFS最初是为了Apache 的Nutch网络搜索引擎项目的下层构件而
设计的。是Hadoop项目的一部分,而这又是Apache的 Lucene项目的一部分。本项目的地
址是:/projects/hadoop.html。
2.
2.
22.. 假设与目标
2.1.
2.1.
22..11.. 硬件错误
硬件错误是正常的,而不是异常。HDFS实例由成百上千个服务器组成,每个都存
储着文件系统的一部分数据。事实上,这就会有大量的组件,而每个组件出故障的可能性
都很大,这意味着HDFS总有一些组件是不能工作的。因此,检测错误并快速自动恢复就
成了HDFS的核心设计目标。
2.2.
2.2.
22..22.. 流式数据访问
运行在HDFS上的应用程序需要流式的访问它们的数据集,它们也不是通常运行在
普通文件系统上的普通应用程序。HDFS为了那些批量处理而设计的,而不是为普通用户
的交互使用。强调的是数据访问的高吞吐量而不是数据访问的低反应时间。POSIX强加的
很多硬性需求是HDFS上应用程序所不需要的, 这些POSIX语义在一些关键环境下被用
来提高数据的吞吐频率。
2.3.
2.3.
22..33.. 大数据集
运行在HDFS上的应用程序使用大数据集。HDFS一个典型的文件可能是几GB的或
者几TB的。因此,HDFS适用于大文件。这将提供高集成带宽,并在一几集群中提供上百
个结点。一个实例可能支持上千万个文件。
2.4.
2.4.
22..44.. 简单一致性模型
HDFS的应用程序需要对文件实行一次性写,多次读的访问模式。文件一旦建立后
写入,文件就不需要再更改了。这样的假定简化了数据一致性问题并使高数据吞吐量成为
可能。MapReduce程序或者网络爬虫程序就很适合使用这样的模型。当然未来计划支持增
量写。
2.5.
2.5.
22..55.. 移动计算环境比移动数据划算
如果就在数据的旁边就执行对这些数据的操作,那么程序所使用的设备就会很高
效。这当文件相当巨大的时候就尤其正确。这可以减少网络的拥塞和提高系统的吞吐量。
这个假设还意味着,常常是把计算迁移到数据存储的近处更好,而不是把数据传输到程序
运行的地方。HDFS提供了程序接口以便把他们自己移动到数据存储的地方执行。
2.6.
2.6.
22..66.. 跨硬件和软件平台的移动
HDFS设计为容易的从一个平台移动到另一个平台。这有助于HDFS被采用做为一
个大程序集合的工作平台。
3.
3.
33.. 名字结点和数据结点
HDFS是主/从结构的。一个集群有一个名字结点,也就是主控制服务器,负责管理
文件系统的名字空间并协调客户对文件的访问。还有一堆数据结点,一般一个物理结点上
部署一个,负责它们所在的物理结点上的存储管理。HDFS开放文件系统的名字空间以便
让用户数据存储的文件中。内部,一个文件被分割为一个或者多个数据块,这些数据块存
储在一组数据结点中。名字结点执行文件系统的名字空间操作,比如打开、关闭、重命名
文件或目录,还决定数据块从数据结点的映射。数据结点负责提供客户的读写请求。数据
结点还依照名字结点的指令执行数据块的创建、删除复制工作。
名字结点和数据结点是设计为运行在普通机器上的软件组件。这些机器大多运行
GNU/Linux操作系统。HDFS使用JAVA语言来实现;任何支持JAVA的机器都可以运行名
字结点和数据结点软件。使用高度可以移植的JAVA语言意味着HDFS可以被很多种机器
使用。一个典型的部署有一台指定的机器只运行名字结点,体系结构并不排除在那台机器
上也运行数据结点,但是现实中的部署很少那样使用。
一个集群中只有一个名字结点大大简化了系统机构。名字结点做为所有系统元数据
的存储和仲裁者。系统这样设计就会使用户数据从不会流经名字结点。
4.
4.
44.. 文件系统的名字空间
HDFS支持传统的文件
您可能关注的文档
- HGT_2727-1955_聚乙酸乙烯酯乳液木材胶粘剂.pdf
- HG-T_20512-2000_仪表配管配线设计规定[1].pdf
- HGT2806-2009奥氏体不锈钢压力容器制造管理细则.pdf
- HG-T3180-2002_尿素高压设备衬里板及内件的焊接工艺评定和焊工技能评定.pdf
- HGT3679-2000电解槽金属阳极涂层用三氮化钉.pdf
- HG-T3696.2-2002_无机化工产品化学分析用杂质标准溶液的制备.pdf
- HG-T20570-95(汇编) 工艺系统工程设计技术规定.pdf
- HGT20570-95工艺系统工程设计技术规定.pdf
- HG-T20613-2009钢制管法兰用紧固件【程哥制造】带书签版.pdf
- hg中源协和干细胞生物工程股份有限公司.pdf
- 2025年安徽工商职业学院单招职业技能测试题库带答案(典型题).docx
- 2025年洛阳科技职业学院单招职业技能测试题库带答案(新).docx
- 2025年荆门职业学院单招职业技能测试题库及答案(易错题).docx
- 2025年宣化科技职业学院单招职业技能测试题库(精练).docx
- 2025年包头职业技术学院单招职业技能测试题库带答案(新).docx
- 2025年江西工商职业技术学院单招职业技能测试题库带答案(精练).docx
- 2025年黑龙江农业经济职业学院单招职业技能测试题库精编.docx
- 2025年山东艺术设计职业学院单招职业技能测试题库带答案(基础题).docx
- 2025年陕西工商职业学院单招职业技能测试题库带答案(突破训练).docx
- 2025年承德护理职业学院单招职业技能测试题库【word】.docx
文档评论(0)