TDH大数据平台培训_第02讲_分布式文件系统HDFS.pdfVIP

TDH大数据平台培训_第02讲_分布式文件系统HDFS.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
TDH大数据平台培训_第02讲_分布式文件系统HDFS

分布式文件系统 H D F S 范 颖 捷 | 2018.04 星 环 科 技 星 环 科 技 1 HDFS概述 目录 2 HDFS原理 CONTENTS 3 HDFS操作命令 4 HDFS运维管理 1 chapter HDFS概述  起源  设计目标  优缺点 1.1 HDFS起源与设计目标 HDFS概述  HDFS起源 • 2003年10月Google发表了GFS (Google File System )论文 •HDFS (Hadoop Distributed File System )是GFS 的开源实现 •HDFS是Apache Hadoop 的核心子项目  HDFS设计目标 • 运行在大量廉价商用机器上:硬件错误是常态,提供容错机制 • 流式数据访问:批量读而非随机读,关注吞吐量而非时间 • 大规模数据集:典型文件大小GB~TB级,关注横向线性扩展 • 简单一致性模型:一次写入多次读取,支持追加,不允许修改 星 环 科 技 1.2 HDFS优点 HDFS概述  高容错性  流式数据访问 • 数据冗余,多副本 • 一次写入,多次读取 • 副本丢失后,自动恢复 • 保证数据一致性  大规模批处理  构建成本低、安全可靠 • 移动计算,不移动数据 • 构建在廉价的商用服务器上 • 数据位置暴露给计算框架 • 提供了容错和恢复机制 • TB、PB级数据 • 百万规模以上的文件数量 • 10K节点规模 • 作业批处理 星 环 科 技 1.3 HDFS缺点 HDFS概述  不适合低延迟数据访问  不适合大量小文件存储 • 元数据占用NameNode大量内存空间 • 磁盘寻道时间超过读取时间  不支持并发写入 • 一个文件只能有一个写入者  不支持文件随机修改 • 仅支持追加写入 星 环 科 技 2 chapter HDFS原理  架构  存储机制  读写操作  安全模式

文档评论(0)

苏醒文档集 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档