基于随机存储系统的hdfs节点存储性能度量方法.docxVIP

下载本文档

1
0
约3.51千字
约 5页
2023-09-08 发布于湖北
举报
版权申诉

基于随机存储系统的hdfs节点存储性能度量方法.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于随机存储系统的hdfs节点存储性能度量方法 0 基于节长价值的企业存储策略作为云计算的基本结构和关键技术之一，云存储不仅在云计算的发展中发挥着重要作用，而且在许多公司的云存储业务中得到了广泛支持。但是云存储作为一项较前沿的发展技术距离大规模的商用还有一段时间,目前能被大多数用户接受和使用的云存储是较为简单的云备份业务。研究表明,云存储中的任务通常具有数据量大、计算量小和数据传输速率敏感的特点,即云存储系统对吞吐量有着较高的要求。HDFS(Hadoop Distributed File System)作为开源的Hadoop项目的核心组件之一,负责系统的数据存储和管理、文件管理及出错处理等基础工作,是谷歌分布式文件系统GFS的开源实现,也是文中的研究依托。在目前的HDFS版本中都假设集群中的节点是同构的,且在数据块的放置时采用了随机的数据放置策略,而在实际的云存储系统中节点的同构性并不理想并且随着系统的运行节点的存储性能动态地变化,随机选取节点的数据放置策略也可能导致集群中数据放置的不均衡性。文献提出了一种基于节点评价值的选取策略,考虑到了随机策略可能引起的节点负载不均衡问题,但是忽略了集群的异构性问题。异构集群中不同的节点有着不同的存储性能。对于存储性能不同的两个节点放置同样多的数据不利于高性能节点上存储资源的利用,有理由在存储性能高的节点放置更多的数据。因此,文中提出一种根据节点的存储性能按比例存放数据的策略以提高整个系统的存储性能和平衡节点存储资源的利用率。 1 hdfs数据放置策略 1.1 名称节点的选择和命名空间管理 HDFS采用主从式的结构管理体系。在一个HDFS集群中有一个名称节点和多个数据节点。名称节点负责数据存放节点的选择和命名空间的管理,数据节点负责数据块的存储并受名称节点的管理。当有数据块上传请求时名称节点根据一定的选取策略筛选出最优的存储节点,然后由客户端将数据上传到指定的节点中。HDFS默认为每一个数据块存放3个副本,其中两个副本按照随机选择的策略存放在本地机架中的两个节点上,第三个副本放在一个随机选择的其他机架中的一个随机节点上。 1.2 云计算的均衡性问题 HDFS采用了简化模型的设计理念,数据放置时依靠随机选择的数据放置策略,在数据量较大时以概率来保证数据较均衡地分布到各个节点上,但是云计算复杂并且可能动态变化,依靠概率来保证数据放置的均衡性本身就不可靠。再者,HDFS假设集群中的节点是同构的,而在实际的集群中节点存储性能的同构性并不理想,部分节点之间还可能存在较大的性能差异,因此,给各个数据节点平均分配数据量的做法一方面并不能充分发挥部分高性能节点的作用,另一方面还可能因为部分低性能节点负载过重给用户带来较差的用户体验。 2 提高数据处理策略 2.1 相关概念的定义 (1) 节点系统性能节点的存储性能包含的范围较广,主要包括节点CPU性能、内存大小、存储设备的存取速度、系统结构;另外还包括节点的可靠性评价,节点对存储数据的安全性、完整性的保障程度等。节点的可靠性和数据的安全性不属于文中的讨论范围。假设集群中所有的节点都是可靠的,数据节点上所有的数据都是安全完整的。节点的CPU性能:其影响因素有处理器主频、每条指令所花的时钟周期数(即CPI)、操作的指令条数,用参数C表示。磁盘读写速度:用参数V表示。 V=λVWrite+(1-λ)VRead(1) VWrite为磁盘的写速度,VRead为磁盘的读速度,λ称为更新频率,为写操作相对于其它所有操作的百分比。内存大小:用参数M表示。系统结构:可在很大程度上影响节点吞吐量,如并行处理结构可增大吞吐量,用参数S表示,S的取值范围为。综上所述,集群中某一节点i的存储性能: P(i)=A1*C(i)+A22*V(i)+A3*M(i)+A4*S(i) (2) 其中A1、A2、A3、A4为各参量的权重因子且A1+A2+A3+A4=1。 (2) 相对节点性能 PRe(i)=P(i)P(i)min(3)ΡRe(i)=Ρ(i)Ρ(i)min(3) P(i)为节点i的存储性能,P(i)min为集群中所有节点存储性能的最小值,PRe(i)即为定义的相对节点性能。 (3) loadi策略在异构的集群中用数据节点上放置的数据量(绝对负载)来衡量节点的负载状况并不准确,在此定义异构集群中节点相对负载的概念。 LOAD(i)=N(i)/PRe(i) (4) N(i)为节点i上已存放的数据块数。前面已经提到,对于每一个数据节点,改进的策略根据节点性能按比例存放数据,在此将节点负载作为节点的选择代价,在选择数据块的放置节点时优先选择“节点选择代价”值最低的节点进行数据的放置。 COST(i)=LOAD(i) (5) (4) 均负载的