- 1、本文档共50页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据技术与应用 - 大数据存储和管理 - 分布式文件系统 - 第二课
大数据技术与应用
网络与交换技术国家重点实验室
交换与智能控制研究中心
程祥
2016年9月
提纲-大数据存储和管理
1. 分布式文件系统
1.1 概述
1.2 典型分布式文件系统
1.3 HDFS
2. 分布式数据库
2.1 概述
2.2 NoSQL
2.3 HBase
2.4 MongoDB (略)
2.5 云数据库 (略)
1.1 概述
• 定义:相对于本地文件系统,分布式文件系统是
一种通过网络实现文件在多台主机上进行分布式
存储的文件系统。
• 分布式文件系统一般采用C/S模式,客户端以特定
的通信协议通过网络与服务器建立连接,提出文
件访问请求。
• 客户端和服务器可以通过设置访问权限来限制请
求方对底层数据存储块的访问。
1.2 典型的分布式文件系统
• NFS (Network File System)
由Sun微系统公司作为TCP/IP网上的文件共享系统
开发,后移植到Linux等其他平台。其接口都已经
标准化。
• AFS (Andrew File System)
由卡耐基梅隆大学信息技术中心(ITC)开发,主要
用于管理分部在不同网络节点上的文件。AFS与
NFS不同,AFS提供给用户的是一个完全透明,永
远唯一的逻辑路径(NFS需要物理路径访问)。
1.2 典型的分布式文件系统(续)
• GFS(Google File System)
由Google开发,是一个可扩展的分布式文件系统
,用于大型的、分布式的、对大量数据进行访问
的应用。它运行于廉价的普通硬件上,并提供容
错功能。
• HDFS(Hadoop Distributed File System)
HDFS是Apache Hadoop项目的一个子项目,是一
个高度容错的分布式文件系统,设计用于在低成
本硬件上运行,适合存储大数据,GFS的开源版
本。
1.3 计算机集群结构
• 分布式文件系统把文件分布存储到多个计算机节点上,成
千上万的计算机节点构成计算机集群。
• 与之前使用多个处理器和专用高级硬件的并行化处理装置
不同的是, 目前的分布式文件系统所采用的计算机集群都
是由普通硬件构成的,因此大大降低了硬件上的开销。
计算机集群的基本架构
1.3 计算机集群结构(续)
1.4 分布式文件系统的结构
• 分布式文件系统在物理结构上是由计算机集群中的多个节
点构成,这些节点分为两类,一类叫“主节点”(Master
Node)或者也被称为“名称结点”(NameNode),另一类叫
“从节点”(Slave Node)或者也被称为“数据节点
”(DataNode)。
大规模文件系统的整体结构
1.5 HDFS
• 简介
HDFS开源实现了GFS的基本思想。
是Apache Nutch搜索引擎的一部分,后来独立出
来作为一个Apache子项目,并和MapReduce一起
成为Hadoop的核心组件。
支持处理超大规模文件,运行在廉价普通及其组
成的集群上。
1.5 HDFS (续)
• 主要特性
兼容廉价的硬件设备
支持大数据存储
流数据读写
简单的文件模型
强大的跨平台兼容性
• 局限性
不适合低延迟数据访问
无法高效存储大量小文件
不支持多用户写入及任意修改文件
1.6 HDFS相关概念-块
• HDFS默认一个块64MB,一个文件被分成多个块,以块作为
存储单位,块大小远远大于普通文件系统,可以最小化寻
址开销HDFS采用抽象的块概念可以带来以下好处。
① 支持大规模文件存储:文件以块为单位进行存储,一个大规模文件
可以被分拆成若干个文件块,不同的文件块可以被分发到不同的节
点上,因此,一个文件的大小不会受到
文档评论(0)