- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop分布式文件系统:架构和设计
TOC \o 1-5 \h \z \o Current Document 引言 2
\o Current Document 一前提和设计目标 2
hadoop和云计算的关系 2
\o Current Document 2流式数据访问 2
\o Current Document 3大规模数据集 2
\o Current Document 4简单的一致性模型 3
\o Current Document 5异构软硬件平台间的可移植性 3
\o Current Document 6硬件错误 3
二 HDFS 重要名词解释 3
Name node 4
sec on dary Name node 5
Data node 6
jobTracker 6
TaskTracker 6
\o Current Document 三HDFS数据存储 7
\o Current Document 1 HDFS数据存储特点 7
\o Current Document 2心跳机制 7
\o Current Document 3副本存放 7
\o Current Document 4副本选择 7
\o Current Document 5安全模式 8
\o Current Document 四HDFS数据健壮性 8
\o Current Document 1磁盘数据错误,心跳检测和重新复制 8
\o Current Document 2集群均衡 8
\o Current Document 3数据完整性 8
\o Current Document 4元数据磁盘错误 8
\o Current Document 5快照 9
引言
云计算(cloud computing) ,由位于网络上的一组服务器把其计算、存储、数据等资源以
服务的形式提供给请求者以完成信息处理任务的方法和过程。 在此过程中被服务者只是提供需求
并获取服务结果,对于需求被服务的过程并不知情。 同时服务者以最优利用的方式动态地把资源
分配给众多的服务请求者,以求达到最大效益。
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件 (commodity hardware)
上的分布式文件系统。它和现有的分布式文件系统有很多共同点。 但同时,它和其他的分布式文
件系统的区别也是很明显的。 HDFS是一个高度容错性的系统, 适合部署在廉价的机器上。 HDFS
能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
一前提和设计目标
1 hadoop禾口云计算的关系
云计算由位于网络上的一组服务器把其计算、存储、数据等资源以服务的形式提供给请求
者以完成信息处理任务的方法和过程。 针对海量文本数据处理,为实现快速文本处理响应 ,缩短海
量数据为辅助决策提供服务的时间 ,基于Hadoop云计算平台,建立HDFS分布式文件系统存储
海量文本数据集,通过文本词频利用 MapReduce 原理建立分布式索引,以分布式数据库 HBase 存储关键词索引,并提供实时检索,实现对海量文本数据的分布式并行处理 .实验结果表
明,Hadoop 框架为大规模数据的分布式并行处理提供了很好的解决方案。
2流式数据访问
运行在HDFS上的应用和普通的应用不同,需要流式访问它们的数据集。 HDFS的设计中
更多的考虑到了数据批处理, 而不是用户交互处理。 比之数据访问的低延迟问题, 更关键的在于 数据访问的高吞吐量。
3大规模数据集
运行在HDFS上的应用具有很大的数据集。 HDFS上的一个典型文件大小一般都在 G字节
至T字节。因此,HDFS被调节以支持大文件存储。它应该能提供整体上高的数据传输带宽, 能在一个集群里扩展到数百个节点。一个单一的 HDFS实例应该能支撑数以千万计的文件。
4简单的一致性模型
HDFS应用需要一个一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关 闭之后就不需要改变。这一假设简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。 Map/Reduce 应用或者网络爬虫应用都非常适合这个模型。 目前还有计划在将来扩充这个模型,
使之支持文件的附加写操作。
5异构软硬件平台间的可移植性
HDFS在设计的时候就考虑到平台的可移植性。这种特性方便了 HDFS作为大规模数据应
用平台的推广。
6硬件错误
硬件错误是常态而不是异常。 HDFS可能由成百上千的服务器所构成,每个服务器上存储
着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的, 而且任一组件都有可
能失效,这意味着总是有一部分 HDFS的组件是不工作的。因此错误
文档评论(0)