海量数据分布式存储.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
海量数据分布式存储

海量数据分布式存储 ——Apache HDFS之最新进展 郑锴 Intel 研发经理,Hadoop committer •  大数据发展趋势 •  HDFS 存储演化 目 录 o  HDFS 缓存 (Cache ) o  HDFS 分层存储 (HSM ) content o  HDFS 纠删码 (EC ) •  HDFS在未来 o  智能存储管理 (SSM ) o  对象存储 o  存储在云端 大数据发展趋势 要存储和处理的数据量越来越庞大 •  物联网的发展使得接入设备越来越多 •  实时流处理技术的发展使数据导入速度越来越快 •  数据分析(OLAP )日趋成熟 •  人工智能(AI )新时代,人们希望聚集更多的历史数据进行深度学习 对处理数据速度的期望越来越高 •  能处理大量数据只是基本要求,还要处理的快 •  新数据从产生到及时被处理,催生各种实时流处理框架 •  顺序读取已不能满足要求,各种存储格式改进和跨越式读取 存储的场景更复杂 ,更丰富 •  一个集群,同时支持好: §  大文件、小文件 §  热数据、冷数据 §  在线处理、离线分析 •  对象存储 存储设备的两极 :越来越廉价和越来越快 •  要么更廉价,更多更老的数据促进更廉价的设备,tape死而复生? •  要么更快,SSD步伐越来越快 •  3XD Point技术和NVM设备,存储和内存统一起来 网络带宽也越来越高 •  10Gb的网络已经是标配 •  40Gb乃至100Gb也即将到来 存储和计算相分离 ,大数据加速向云端迁移 •  云计算,大势所趋 •  弹性计算,更灵活,可伸缩 •  跨集群、跨数据中心,远程读取不可避免 HDFS 存储演化 HDFS Cache 缓存支持 1. 缓存文件 NameNode 用户 2. 缓存该文件所属的块 DataNode DataNode DFSClient 3. Memory-locality 地读 HDFS HSM 多层次存储体系 Cold-policy NameNode Hot-policy 冷文件 热文件 SSD, 3XD Point … faster, less slower, vast HDD, Tape, Archive … DataNode DataNode DataNode DataNode DataNode DataNode HDFS EC 纠删码支持 (1)

文档评论(0)

ailuojue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档