网站大量收购独家精品文档,联系QQ:2885784924

谈谈基于以太网的GPU Scale-UP网络.docxVIP

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

最近IntelGaudi-3的发布,基于RoCE的Scale-UP互联,再加上JimKeller也在谈用以太网替代NVLink。而Jim所在的Tenstorrent就是很巧妙地用Ethernet实现了片上网络之间的互联。所以今天有必要来讲讲这个问题。

实现以太网替代NVLink需要什么手段,不只是一个传输协议的问题,还涉及到GPU架构的一系列修改,本质上这个问题等价于如何把HBM挂在以太网上,并实现Scale-Out和满足计算需求的一系列通信优化,例如SHARP这类In-Network-Computing等,全球来看能同时搞定这个问题的人也就那么几个,至少明确的说UltraEthernet压根就没想明白。

有必要回答以下几个问题,或者说博通要搞个NVLink一样的东西出来,必须解决如下几个问题:

1.LatencyBoundary是多少?高吞吐高速SerdesFEC和超过万卡规模的互联带来的链路延迟都是不可抗的,这些并不是说改一个包协议,弄一个HPC-Ethernet就能搞定的。

2.传输的语义是什么?做网络的这群人大概只懂个SEND/RECV。举个例子,UEC定义的ReliableUnorderedDeliveryforIdempotentoperations(RUDI)其实就是一个典型的技术上的错误,一方面它满足了交换律和幂等律,但是针对一些算子,例如Reduction的加法如何实现幂等?显然这群人也没做过,还有针对NVLink上那种细颗粒度的访存,基于结合律的优化也是不支持的。更一般来说,它必须演进到Semi-Lattice的语义才行。

3.更大内存在NVLINK上池化的问题??解决计算问题中ComputeBound算子的部分时间/空间折中,例如KVCache等。

4.动态路由和拥塞控制能力1:1无收敛的Lossless组网对于万卡集群通过一些hardcode的调优没什么太大的问题,而对于十万卡和百万卡规模集群来看,甚至需要RDMA进行长传,这些问题目前来看没有一个商业厂商能解决的。考虑到超大规模模型训练的一系列需求,把HBM直接挂载在以太网上并实现了一系列集合通信卸载的,放眼全球现在也就只有少数几个团队干过,前三个问题我是在四年前做NetDAM项目时就已经完全解决干净了,第四个去年也在某个云的团队一起解决干净了。下面我们将介绍一些Gaudi3/Maia100/TPU等多个厂商的互联,然后再分析一下NVLink的演进,最后再来谈谈如何能够真正地解决这些问题atScale,?再强调(Diss)一下atScale这事没做好就别瞎叫。

1.当前ScaleUP互联方案概述

1.1IntelGaudi3

从Gaudi3whitepaper来看,Gaudi的Die如下图所示:

内置了24个RoCE200Gbps的链路,其中21个用于内部FullMesh,三个用于外部链接。

超大规模组网的拓扑,计算了一下Leaf交换机的带宽是一片25.6T的交换机。

但是IntelWhitePaper有一系列的问题值得去仔细爬一下。

1.1.1拥塞控制

Intel的白皮书阐述的是没有使用PFC,而是采用了SelectiveACK机制。同时采用了SWIFT来做CC算法避免使用ECN,基本上明眼人一看,这就是复用了GoogleFalcon在IntelIPU上做的ReliableTransportEngine。

1.1.2多路径和In-NetworkReduction

Intel宣称支持PacketSpraying,但是交换机用的哪家的呢,一定不是自己家的Tofino。那么只能是博通了。另外In-NetworkReduction支持了FP8/BF16等,Operator只支持Sum/Min/Max,再加上UEC有一些关于In-Network-Computing(INC)的工作组,应该基本上就清楚了。

1.2MicrosoftMaia100

没有太多的信息,只有4800Gbps单芯片的带宽,然后单个服务器机框4张Maia100,整个机柜8个服务器构成一个32卡的集群。

放大交换机和互联的线缆来看,有三个交换机,每个服务器有24个400Gbps网络接口,网口间有回环的连接线(图中黑色),以及对外互联线(紫色)。

也就是说很有可能构成如下的拓扑:即在主板内部构成一个口字形的互联,然后在X方向构成一个环,而在Y方向则是分别构成三个平面连接到三个交换机。交换机上行进行机柜间的Scale-Out连接,每个机柜每个平面总共有32个400G接口,再加上1:1收敛,上行交换机链路算在一起正好一个25.6T的交换机,这样搭几层扩展理论应该可行,算是一个Scale-Up和Scale-Out两张网络合并的代表。

文档评论(0)

外卖人-小何 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档