RoCE技术在HPC中的应用分析.pdfVIP

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

RoCE技术在HPC中的应用

分析

HPC网络的发展与RoCE的诞生

在早年的高性能计算(HPC)系统中,往往会采用一些定制的网络

解决方案,例如:Myrinet、Quadrics、InfiniBand,而不是以太网。

这些网络可以摆脱以太网方案在设计上的限制,可以提供更高的带宽、

更低的延迟、更好的拥塞控制、以及一些特有的功能。

IBTA在2010年发布了RoCE(RDMAoverConvergedEthernet)

协议技术标准,随后又在2014年发布了RoCEv2协议技术标准,同时

带宽上也有大幅提升。以太网性能的大幅提升,使越来越多的人想要

选择能兼容传统以太网的高性能网络解决方案。这也打破了top500

上使用以太网的HPC集群数量越来越少的趋势,使以太网现在仍然占

有top500的半壁江山。

虽然现在Myrinet、Quadrics已经消亡,但InfiniBand仍然占

据着高性能网络中重要的一席之地,另外Cray自研系列网络,天河

自研系列网络,TofuD系列网络也有着其重要的地位。

RoCE协议介绍

RoCE协议是一种能在以太网上进行RDMA(远程内存直接访问)

的集群网络通信协议。它将收/发包的工作卸载(offload)到了网卡上,

不需要想TCP/IP协议一样使系统进入内核态,减少了拷贝、封包解

包等等的开销。这样大大降低了以太网通信的延迟,减少了通讯时对

CPU资源的占用,缓解了网络中的拥塞,让带宽得到更有效的利用。

RoCE协议有两个版本:RoCEv1和RoCEv2。其中RoCEv1是链

路层协议,所以使用RoCEv1协议通信的双方必须在同一个二层网络

内;而RoCEv2是网络层协议,因此RoCEv2协议的包可以被三层路

由,具有更好的可扩展性。

RoCEv1协议

RoCE协议保留了IB与应用程序的接口、传输层和网络层,将IB

网的链路层和物理层替换为以太网的链路层和网络层。在RoCE数据

包链路层数据帧中,Ethertype字段值被IEEE定义为了0x8915,来

表明这是一个RoCE数据包。但是由于RoCE协议没有继承以太网的网

络层,在RoCE数据包中并没有IP字段,因此RoCE数据包不能被三

层路由,数据包的传输只能被局限在一个二层网络中路由。

RoCEv2协议

RoCEv2协议对RoCE协议进行了一些改进。RoCEv2协议将RoCE

协议保留的IB网络层部分替换为了以太网网络层和使用UDP协议的

传输层,并且利用以太网网络层IP数据报中的DSCP和ECN字段实现

了拥塞控制的功能。因此RoCEv2协议的包可以被路由,具有更好的

可扩展性。由于RoCEv2协议现在已经全面取代存在缺陷的RoCE协

议,人们在提到RoCE协议时一般也指的是RoCEv2协议,故本文中

接下来提到的所有RoCE协议,除非特别声明为第一代RoCE,均指代

RoCEv2协议。

无损网络与RoCE拥塞控制机制

在使用RoCE协议的网络中,必须要实现RoCE流量的无损传输。

因为在进行RDMA通信时,数据包必须无丢包地、按顺序地到达,如

果出现丢包或者包乱序到达的情况,则必须要进行go-back-N重传,

并且期望收到的数据包后面的数据包不会被缓存。

RoCE协议的拥塞控制共有两个阶段:使用DCQCN(Datacenter

QuantizedCongestionNotification)进行减速的阶段和使用

PFC(PriorityFlowControl)暂停传输的阶段(虽然严格来说只有前

者是拥塞控制策略,后者其实是流量控制策略,但是我习惯把它们看

成拥塞控制的两个阶段,后文中也这会这么写)。

当在网络中存在多对一通信的情况时,这时网络中往往就会出现

拥塞,其具体表现是交换机某一

文档评论(0)

132****6651 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档