网站大量收购独家精品文档,联系QQ:2885784924

分布式文件系统调整本的存储均衡策略.docx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分布式文件系统调整本的存储均衡策略 为了提高系统的可靠性,解决由于不预测灾难和硬件错误系统造成的损失,云存储系统使用分布式副技术来存储数据。 哥伦比亚大学的Ko等提出了一种自稳定、全分布、异步可升级的算法来放置副本, 算法的目标是在网络中的结点上放置数据对象的多个副本, 从网络中的任意一个结点出发都能够通过最短的路径访问到任意的副本;加州大学伯克利分校的Chen等开发设计了一个动态、高效及可升级的内容分发网络SCAN (sealable content aeeess network) .SCAN采用Testry进行路由和定位, 使用沿路缓存算法进行副本放置;德克萨斯大学的MadhukarR等提出了一种协作的缓存放置算法, 即给定一组协作的缓存、缓存之间的网络距离以及从每个缓存到每个对象的访问频率的预测, 决定在哪里放置对象, 从而使平均访问开销最小化;Karger等提出了能适应节点数量的动态变化的一致性哈希算法, 但它只适用于存储节点同构的情况, 当节点的存储容量和处理能力有差异时, 数据将不能够均匀地分布到系统当中. 云存储系统的典型代表是Hdfs, 它需将每个存储数据块的副本放置在多个机架的多个节点上, 存储数据块的副本放置策略将直接影响数据存储的均衡性以及访问数据块的速度.Hdfs系统采用随机选择节点的副本放置策略, 该策略在系统运行一段时间后会造成数据分布不均衡的问题, 降低数据的可靠性和读取性能.因此, 本文提出了基于节点使用率选择存储节点的Hdfs副本放置策略的改进算法, 引入了客户端存储阈值, 允许副本在放置过程中穿越多个机架, 以实现各节点数据存储的相对均衡, 实验验证了改进策略的有效性. 1 在缺少统一的上支持统一的hdfs集群 内容为研究Hdfs的副本放置策略, 先介绍相关概念如下: 1) 获取集群信息:Hdfs的Network Topology类实现对其拓扑结构的操纵, 该类中包含添加、删除和获取节点信息等函数.比如, Hdfs通过调用Network Topology类的chooseRandom来随机获取一个节点的信息, 通过调用get Num Of Leaves来获取所有节点的数目. 2) 集群拓扑 (机架与节点) :将Hdfs部署在多台服务器上就形成了一个Hdfs的集群.如树状拓扑结构的Hdfs集群, 树根是一个大型交换机, 交换机之下可以是多个二级交换机, 可以把每一个二级交换机设置为一个机架, 每个机架之下连接多个节点. Hdfs管理员可编写脚本文件来配置每个节点属于哪一个机架.在进行机架配置时, 应将相同交换机下的节点设置为同一个机架就可实现合理的配置. 一般把组成Hdfs集群的每一个服务器称为一个节点, 对文件读写的客户端而言, 其所在节点称为本地节点, 其他节点为远程节点.就某一具体节点而言, 称该节点所在的机架为本地机架, 其他机架为远程机架. 3) 随机函数:Hdfs的Network Topology类中有保存所有节点信息的Array List.Hdfs在选择副本放置位置时, 调用随机选择函数chooseRandom, 从n中随机选择一个数对应Array List中的节点就被选中为副本存储的节点.该函数是只有2个参数的重载函数, 第1个参数是选择节点的范围, 它可以是某个机架, 默认为整个集群;第2个参数是不能选择节点的范围, 默认为空, 可以设置为某个机架. 4) Hdfs在进行副本选择过程中, 有可能出现参数不合格或内存异常等现象, 一旦出现运行异常, chooseRandom函数就会把异常信息返回客户端该函数的调用者. 2 副本放置策略 如图1所示, Hdfs的副本放置策略是将每一个数据项的副本放置在多个节点上.在客户端运行的节点上放置第1个副本, 在客户端的远程机架上随机选择一个节点放置第2个副本, 在第2个副本所在机架上随机选择一个节点放置第3个副本. 分布式文件系统的副本放置策略确定每一个数据块应该存放的位置, 数据块与节点之间的关联被记录在数据块与节点关联表中, 数据块最终会被存放在存储层的各个节点上. 2.1 基于replicationrapityblot的客户端集群一致性检验 Hdfs的分块存储文件在选择副本放置位置时, 综合考虑了数据存储的可靠性、数据读写的带宽和负载均衡等因素.如将一个数据块所有副本都存储在一个节点上, 则存储过程中所占用的带宽是最小的, 因为这可以减少数据块的网络传输, 但该方案不提供有效的冗余备份, 一旦该节点发生故障, 则该节点中存储的这一数据块及其所有副本都会丢失.因此, Hdfs对任意一数据块不在同一个节点上放置多个副本, 而是将副本尽可能分散存放.图2给出了Hdfs默认的副本放置策略流程, 其中标注了本文所实现的对副本放置策略的改进工作

文档评论(0)

lmzwkyc + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档