网站大量收购独家精品文档,联系QQ:2885784924

一文读懂智算中心高性能网络中的拥塞控制方案.docxVIP

一文读懂智算中心高性能网络中的拥塞控制方案.docx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

AI大模型训练、HPC、高性能存储等业务应用场景提出了海量规模的计算需求,与传统数据中心业务相比,在流量模型和网络需求方面有着显著区别,驱使传统的数据中心网络向智算中心和无损网络转型。

基于RDMA的高性能网络已成为智算中心广泛应用的核心基础设施,但RDMA对于网络丢包异常敏感,如果丢包会导致网络性能急剧下降。在RoCEv2无损网络中利用PFC流控机制,实现交换机端口缓存溢出前暂停对端流量,阻止了丢包现象发生,但由于PFC需要逐级反压,效率较低,同时,PFC是一种粗粒度机制,运行在【端口+优先级】这个级别,不能细化到每一个Flow,可能会导致拥堵蔓延,进而出现不公平现象、线头阻塞、PFC死锁、PFC风暴等一系列性能问题。

如果能够动态地调整每个Flow的发送速率,保持端口的队列深度比较稳定,那么就不会触发PFCPause了,因此,就需要有基于Flow的拥塞控制算法。近年来业内聚焦在RDMA高性能网络的拥塞控制算法领域,进行了大量的前沿研究和工程实践工作。

拥塞控制算法分类

根据拥塞控制机制的不同,RDMA网络中的拥塞控制方案可以分为两大类:被动拥塞控制和主动拥塞控制。这里的所谓主动和被动的区分依据,主要是主动拥塞控制以“请求和分配”方式运行;而被动拥塞控制则使用“尝试和退避/tryandbackoff”的方式运行。

注:不同厂家的叫法不同,有些被动拥塞控制的改进算法,也被称为主动拥塞控制,这个我们不做深入的讨论,比如HW的NPCC(Network-basedProactiveCongestionControl),NPCC支持在网络设备上智能识别拥塞状态,然后由网络设备主动向发送端服务器发送CNP报文,使发送端服务器及时降低发送报文的速率,解决了拥塞反馈路径过长的问题,而且可以准确控制发送的CNP报文个数。但按上面的分类,其本质还是被动拥塞控制,只不过对某些环节进行优化而已。

被动拥塞控制

被动拥塞控制又分为迭代探测和直接测量两种,迭代探测中有基于主机侧的端到端的控制方案,也有基于交换机辅助的控制方案。

迭代探测中,比较常见有基于丢包检测的CUBIC(丢包情况下才会触发的拥塞控制方案,不适用RDMA刚性兑付网络的要求,不在本文的讨论范围内)、基于ECN的DCQCN、基于时延检测的Timely、Swift等,但一个共同的特点是发送端根据网络的拥塞反馈信号,对发送速率进行调节。这类技术由于实现简单、易于部署被广泛使用,但通常被认为存在拥塞反应滞后、控制回环时间长、容易引起吞吐率震荡、速率收敛慢、误伤老鼠流等问题,因此有很大的优化空间。

直接测量的拥塞控制方案,直接测量算法的关键是利用交换机来精确测量当前的网络状态并显式反馈信息,?以便发送端快速做出拥塞反应,?并能准确地根据测量信息进行速率分配、控制网络拥塞。如基于INT遥测的HPCC,HPCC在数据面上找到了突破,通过智能网卡与交换机的配合,端到端实时抓取拥塞信息,从而精确获取实时的链路负载,并且根据精确的链路负载来计算合适的发送速率。

主动拥塞控制

与上述网络拥塞发生后再进行拥塞控制的被动拥塞控制方案不同,主动拥塞控制方案旨在防止拥塞发生,只有网络管道具有足够的容量时才发送数据。主动拥塞控制以“请求和分配”方式运行,通过调度器主动对网络带宽进行统一的预约和分配,?以使总发送速率尽可能匹配瓶颈链路带宽,这样既可以充分利用带宽,又能防止丢包。

根据调度器的是集中部署还是分布式部署,集中式调度器的方案,主要依靠集中式调度器对网络资源预约和分配,终端依据调度器的分配进行数据包发送,该方案的关键是调度器如何对数据包进行全局调度,如FastPass;分布式部署方案,又可以进一步细分为端到端的方案和逐跳的方案,在分布式端到端的拥塞控制方案中,发送端直接发送请求到接收端,由接收端预约和分配网络资源,而不需要交换机的参与;而逐跳的拥塞控制方案中,需要交换机对网络中间链路辅以检测和管理,发送端、接收端共同完成资源的分配和调度,方案的关键是如何利用交换机提供的信息来进行或辅助数据包的调度发送,分布式部署方案比较典型的如ExpressPass。

主要拥塞控制算法

基于ECN的拥塞控制

2015年SIGCOMM会上微软发表了DCQCN,揭开了拥塞流控的研究序幕。此前,RDMA硬件仅仅依赖于传统网络的PFC反压机制来实现点到点的发送速度控制,没有网卡的配合,无法实现端到端的流控。DCQCN是在QCN和DCTCP的技术基础上,为RDMA网络设计了端到端的拥塞流控机制,DCQCN的设计前提还是基于ECN标记。

DCQCN的拥塞控制过程中主要分为三部分:发送端(RP)调整流量发送速率,沿途转发交换机(CP)利用ECN标记报文携带网络链路的拥塞信息,接收端(NP)将收到拥塞标记通过CNP协议报文反馈给发

文档评论(0)

外卖人-小何 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档