大数据基础知识.docxVIP

下载本文档

9
0
约1.92万字
约 18页
2019-05-06 发布于江苏
举报
版权申诉

大数据基础知识.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

HDFS 特点和目标硬件故障硬件故障是常态，而不是异常。整个 HDFS 系统将由数百或数千个存储着文件数据片断的服务器组成。实际上它里面有非常巨大的组成部分，每一个组成部分都很可能出现故障，这就意味着 HDFS 里的总是有一些部件是失效的，因此，故障的检测和自动快速恢复是 HDFS 一个很核心的设计目标。数据访问运行在 HDFS 之上的应用程序必须流式地访问它们的数据集，它不是运行在普通文件系统之上的普通程序。 HDFS 被设计成适合批量处理的，而不是用户交互式的。重点是在数据吞吐量，而不是数据访问的反应时间， POSIX 的很多硬性需求对于 HDFS 应用都是非必须的，去掉 POSIX 一小部分关键语义可以获得更好的数据吞吐率。大数据集运行在 HDFS 之上的程序有很大量的数据集。典型的 HDFS 文件大小是 GB 到 TB 的级别。所以， HDFS 被调整成支持大文件。它应该提供很高的聚合数据带宽，一个集群中支持数百个节点，一个集群中还应该支持千万级别的文件。简单一致性模型大部分的 HDFS 程序对文件操作需要的是一次写多次读取的操作模式。一个文件一旦创建、写入、关闭之后就不需要修改了。这个假定简单化了数据一致的问题和并使高吞吐量的数据访问变得可能。一个 Map-Reduce 程序或者网络爬虫程序都可以完美地适合这个模型。移动计算比移动数据更经济在靠近计算数据所存储的位置来进行计算是最理想的状态，尤其是在数据集特别巨大的时候。这样消除了网络的拥堵，提高了系统的整体吞吐量。一个假定就是迁移计算到离数据更近的位置比将数据移动到程序运行更近的位置要更好。 HDFS 提供了接口，来让程序将自己移动到离数据存储更近的位置。异构软硬件平台间的可移植性 HDFS 被设计成可以简便地实现平台间的迁移，这将推动需要大数据集的应用更广泛地采用 HDFS 作为平台。名字节点和数据节点 HDFS 是一个主从结构，一个 HDFS 集群是由一个名字节点，它是一个管理文件命名空间和调节客户端访问文件的主服务器，当然还有一些数据节点，通常是一个节点一个机器，它来管理对应节点的存储。 HDFS 对外开放文件命名空间并允许用户数据以文件形式存储。内部机制是将一个文件分割成一个或多个块，这些块被存储在一组数据节点中。名字节点用来操作文件命名空间的文件或目录操作，如打开，关闭，重命名等等。它同时确定块与数据节点的映射。数据节点负责来自文件系统客户的读写请求。数据节点同时还要执行块的创建，删除，和来自名字节点的块复制指令。名字节点和数据节点都是运行在普通的机器之上的软件，机器典型的都是 GNU/Linux ， HDFS 是用 java 编写的，任何支持 java 的机器都可以运行名字节点或数据节点，利用 java 语言的超轻便型，很容易 HDFS 部署到大范围的机器上。典型的部署是由一个专门的机器来运行名字节点软件，集群中的其他每台机器运行一个数据节点实例。体系结构不排斥在一个机器上运行多个数据节点的实例，但是实际的部署不会有这种情况。集群中只有一个名字节点极大地简单化了系统的体系结构。名字节点是仲裁者和所有 HDFS 元数据的仓库，用户的实际数据不经过名字节点。文件命名空间 HDFS 支持传统的继承式的文件组织结构。一个用户或一个程序可以创建目录，存储文件到很多目录之中。文件系统的名字空间层次和其他的文件系统相似。可以创建、移动文件，将文件从一个目录移动到另外一个，或重命名。 HDFS 还没有实现用户的配额和访问控制。 HDFS 还不支持硬链接和软链接。然而， HDFS 结构不排斥在将来实现这些功能。名字节点维护文件系统的命名空间，任何文件命名空间的改变和或属性都被名字节点记录。应用程序可以指定文件的副本数，文件的副本数被称作文件的复制因子，这些信息由命名空间来负责存储。数据复制 HDFS 设计成能可靠地在集群中大量机器之间存储大量的文件，它以块序列的形式存储文件。文件中除了最后一个块，其他块都有相同的大小。属于文件的块为了故障容错而被复制。块的大小和复制数是以文件为单位进行配置的，应用可以在文件创建时或者之后修改复制因子。 HDFS 中的文件是一次写的，并且任何时候都只有一个写操作。名字节点负责处理所有的块复制相关的决策。它周期性地接受集群中数据节点的心跳和块报告。一个心跳的到达表示这个数据节点是正常的。一个块报告包括该数据节点上所有块的列表。副本位置：第一小步块副本存放位置的选择严重影响 HDFS 的可靠性和性能。副本存放位置的优化是 HDFS 区分于其他分布式文件系统的的特征，这需要精心的调节和大量的经验。机架敏感的副本存