谈谈基于以太网的GPU Scale-UP网络.docxVIP

下载本文档

1
0
约6.03千字
约 26页
2025-04-02 发布于湖南
举报
版权申诉

谈谈基于以太网的GPU Scale-UP网络.docx

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

最近IntelGaudi-3的发布，基于RoCE的Scale-UP互联，再加上JimKeller也在谈用以太网替代NVLink。而Jim所在的Tenstorrent就是很巧妙地用Ethernet实现了片上网络之间的互联。所以今天有必要来讲讲这个问题。

实现以太网替代NVLink需要什么手段，不只是一个传输协议的问题，还涉及到GPU架构的一系列修改，本质上这个问题等价于如何把HBM挂在以太网上，并实现Scale-Out和满足计算需求的一系列通信优化，例如SHARP这类In-Network-Computing等,全球来看能同时搞定这个问题的人也就那么几个，至少明确的说UltraEthernet压根就没想明白。

有必要回答以下几个问题，或者说博通要搞个NVLink一样的东西出来，必须解决如下几个问题：

1.LatencyBoundary是多少？高吞吐高速SerdesFEC和超过万卡规模的互联带来的链路延迟都是不可抗的，这些并不是说改一个包协议，弄一个HPC-Ethernet就能搞定的。

2.传输的语义是什么？做网络的这群人大概只懂个SEND/RECV。举个例子，UEC定义的ReliableUnorderedDeliveryforIdempotentoperations(RUDI)其实就是一个典型的技术上的错误，一方面它满足了交换律和幂等律，但是针对一些算子，例如Reduction的加法如何实现幂等？显然这群人也没做过，还有针对NVLink上那种细颗粒度的访存，基于结合律的优化也是不支持的。更一般来说，它必须演进到Semi-Lattice的语义才行。

3.更大内存在NVLINK上池化的问题??解决计算问题中ComputeBound算子的部分时间/空间折中，例如KVCache等。

4.动态路由和拥塞控制能力1:1无收敛的Lossless组网对于万卡集群通过一些hardcode的调优没什么太大的问题，而对于十万卡和百万卡规模集群来看，甚至需要RDMA进行长传，这些问题目前来看没有一个商业厂商能解决的。考虑到超大规模模型训练的一系列需求，把HBM直接挂载在以太网上并实现了一系列集合通信卸载的，放眼全球现在也就只有少数几个团队干过，前三个问题我是在四年前做NetDAM项目时就已经完全解决干净了，第四个去年也在某个云的团队一起解决干净了。下面我们将介绍一些Gaudi3/Maia100/TPU等多个厂商的互联，然后再分析一下NVLink的演进，最后再来谈谈如何能够真正地解决这些问题atScale,?再强调(Diss)一下atScale这事没做好就别瞎叫。

1.当前ScaleUP互联方案概述

1.1IntelGaudi3

从Gaudi3whitepaper来看，Gaudi的Die如下图所示：

内置了24个RoCE200Gbps的链路，其中21个用于内部FullMesh，三个用于外部链接。

超大规模组网的拓扑，计算了一下Leaf交换机的带宽是一片25.6T的交换机。

但是IntelWhitePaper有一系列的问题值得去仔细爬一下。

1.1.1拥塞控制

Intel的白皮书阐述的是没有使用PFC，而是采用了SelectiveACK机制。同时采用了SWIFT来做CC算法避免使用ECN，基本上明眼人一看，这就是复用了GoogleFalcon在IntelIPU上做的ReliableTransportEngine。

1.1.2多路径和In-NetworkReduction

Intel宣称支持PacketSpraying，但是交换机用的哪家的呢，一定不是自己家的Tofino。那么只能是博通了。另外In-NetworkReduction支持了FP8/BF16等，Operator只支持Sum/Min/Max，再加上UEC有一些关于In-Network-Computing(INC)的工作组，应该基本上就清楚了。

1.2MicrosoftMaia100

没有太多的信息，只有4800Gbps单芯片的带宽，然后单个服务器机框4张Maia100，整个机柜8个服务器构成一个32卡的集群。

放大交换机和互联的线缆来看，有三个交换机，每个服务器有24个400Gbps网络接口,网口间有回环的连接线（图中黑色），以及对外互联线（紫色）。

也就是说很有可能构成如下的拓扑:即在主板内部构成一个口字形的互联，然后在X方向构成一个环，而在Y方向则是分别构成三个平面连接到三个交换机。交换机上行进行机柜间的Scale-Out连接，每个机柜每个平面总共有32个400G接口，再加上1:1收敛，上行交换机链路算在一起正好一个25.6T的交换机，这样搭几层扩展理论应该可行，算是一个Scale-Up和Scale-Out两张网络合并的代表。