网站大量收购闲置独家精品文档,联系QQ:2885784924

大数据技术与应用 - 大数据存储和管理 - 分布式文件系统 - 第二课.pdf

大数据技术与应用 - 大数据存储和管理 - 分布式文件系统 - 第二课.pdf

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据技术与应用 - 大数据存储和管理 - 分布式文件系统 - 第二课

大数据技术与应用 网络与交换技术国家重点实验室 交换与智能控制研究中心 程祥 2016年9月 提纲-大数据存储和管理 1. 分布式文件系统 1.1 概述 1.2 典型分布式文件系统 1.3 HDFS 2. 分布式数据库 2.1 概述 2.2 NoSQL 2.3 HBase 2.4 MongoDB (略) 2.5 云数据库 (略) 1.1 概述 • 定义:相对于本地文件系统,分布式文件系统是 一种通过网络实现文件在多台主机上进行分布式 存储的文件系统。 • 分布式文件系统一般采用C/S模式,客户端以特定 的通信协议通过网络与服务器建立连接,提出文 件访问请求。 • 客户端和服务器可以通过设置访问权限来限制请 求方对底层数据存储块的访问。 1.2 典型的分布式文件系统 • NFS (Network File System)  由Sun微系统公司作为TCP/IP网上的文件共享系统 开发,后移植到Linux等其他平台。其接口都已经 标准化。 • AFS (Andrew File System)  由卡耐基梅隆大学信息技术中心(ITC)开发,主要 用于管理分部在不同网络节点上的文件。AFS与 NFS不同,AFS提供给用户的是一个完全透明,永 远唯一的逻辑路径(NFS需要物理路径访问)。 1.2 典型的分布式文件系统(续) • GFS(Google File System)  由Google开发,是一个可扩展的分布式文件系统 ,用于大型的、分布式的、对大量数据进行访问 的应用。它运行于廉价的普通硬件上,并提供容 错功能。 • HDFS(Hadoop Distributed File System)  HDFS是Apache Hadoop项目的一个子项目,是一 个高度容错的分布式文件系统,设计用于在低成 本硬件上运行,适合存储大数据,GFS的开源版 本。 1.3 计算机集群结构 • 分布式文件系统把文件分布存储到多个计算机节点上,成 千上万的计算机节点构成计算机集群。 • 与之前使用多个处理器和专用高级硬件的并行化处理装置 不同的是, 目前的分布式文件系统所采用的计算机集群都 是由普通硬件构成的,因此大大降低了硬件上的开销。 计算机集群的基本架构 1.3 计算机集群结构(续) 1.4 分布式文件系统的结构 • 分布式文件系统在物理结构上是由计算机集群中的多个节 点构成,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫 “从节点”(Slave Node)或者也被称为“数据节点 ”(DataNode)。 大规模文件系统的整体结构 1.5 HDFS • 简介  HDFS开源实现了GFS的基本思想。  是Apache Nutch搜索引擎的一部分,后来独立出 来作为一个Apache子项目,并和MapReduce一起 成为Hadoop的核心组件。  支持处理超大规模文件,运行在廉价普通及其组 成的集群上。 1.5 HDFS (续) • 主要特性  兼容廉价的硬件设备  支持大数据存储  流数据读写  简单的文件模型  强大的跨平台兼容性 • 局限性  不适合低延迟数据访问  无法高效存储大量小文件  不支持多用户写入及任意修改文件 1.6 HDFS相关概念-块 • HDFS默认一个块64MB,一个文件被分成多个块,以块作为 存储单位,块大小远远大于普通文件系统,可以最小化寻 址开销HDFS采用抽象的块概念可以带来以下好处。 ① 支持大规模文件存储:文件以块为单位进行存储,一个大规模文件 可以被分拆成若干个文件块,不同的文件块可以被分发到不同的节 点上,因此,一个文件的大小不会受到

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档