基于性能感知的时空相关数据集副本管理策略.PDFVIP

基于性能感知的时空相关数据集副本管理策略.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于性能感知的时空相关数据集副本管理策略

14 《高性能计算发展与应用》 2014年第四期 总第四十九期 基于性能感知的时空相关数据集副本管理策略  叶林 栾钟治 杨海龙 北京航空航天大学 计算机学院北京 100091 摘要: 针对如何在广域分布的环境中放置时空相关的数据集以支持跨学科科学研究的问题,本文 提出了基于性能感知的时空相关数据集副本管理策略。它主要从三个方面解决该问题:一是根 据对数据集性能的要求,确定数据集副本的数量;二是根据数据节点性能,确定副本的放置位 置;三是对数据集中冷热数据进行区分,进行副本数量的弹性控制。该策略在HDFS上进行了测 试,实验结果表明本策略在维护数据的可靠性,提高集群整体访问性能方面有很大改善。 关键词:时空相关数据集,性能感知,弹性副本管理 1. 引言 出了基于性能感知的时空相关数据集的副本管理策 面向青海湖生物多样性保护和生态系统演化 略;第四部分对策略进行了实验分析;最后一部分 的跨学科科研合作,相关数据资源往往多源异构。 是对工作的总结。 这些数据一般都具有显著的时空耦合和关联性,也 即时空相关性,这种性质对于跨学科领域的研究来 2. 相关工作 说,需要对整个数据集进行关联性分析,缺少一个 副本数量的确定和副本位置的选择以及弹性副 方面的数据,对研究结果就可能产生极大的影响。 本策略的研究方面取得了一些成果。 [2] 因此创建多少个副本以满足数据集可靠性的要求, Qingsong Wei等 提出了基于代价模型的动态副 这些副本应该放置在哪里才能提高数据集的访问速 本管理技术CDRM。它根据副本因子与数据可用性之 度以及面临密集访问时怎样弹性的进行副本数量的 间的关系,建立了确定副本数量的模型。根据这个 控制以满足数据集可用性的要求。这些问题是副本 模型可以计算出满足可用性要求的副本数量,通过 管理方面的重要方面,也是海量科学数据进行合理 合理分布副本以减少访问阻塞发生的概率,以提高 布局需要解决的关键问题。到目前为止,还没见到 访问性能和实现负载均衡。但是它未对数据的冷热 有针对时空相关数据集副本放置的相关研究工作。 进行合理的区分,未给出需要的热副本数。 [3] 本文解决了在跨学科科学研究中保证时空相关 Cidon等 针对现有数据存储系统中副本的随机 数据集可靠性和可用性的问题。提出了基于性能感 放置以避免数据丢失,但数据丢失率仍然很高的问 知的时空相关数据集的副本管理策略。首先建立了 题,提出了Copysets副本管理策略。它将数据节点划 一个确定副本数量与可靠性之间关系的概率模型, 分为Copysets,然后使用分散宽度来衡量单个数据副 根据该模型可以计算出维护数据可靠性的最小副本 本数量,对给定分散宽度以最少的Copysets数量使得 [1] 数据丢失概率最小。该策略在一定程度上降低了数

您可能关注的文档

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档