2025年GPU Scale-up 互联技术白皮书-字节跳动.docxVIP

下载本文档

24
0
约1.02万字
约 40页
2025-05-09 发布于北京
举报

2025年GPU Scale-up 互联技术白皮书-字节跳动.docx

目录CONTENT

1.引言 1

2.GPU架构和互联方案 2

2.1GPU架构分析 2

2.2GPU互联方案 5

3.下一代Scale-up互联方案 8

3.1需求分析 8

3.2网络方案 10

4.EthLink网络方案 12

4.1EthLink协议栈 13

4.2网络拓扑 18

4.3网络接口 19

引言

随着机器学习和人工智能等领域的持续发展，AI模型对GPU集群数据处理能力的需求也在不断提升。AI应用需要GPU集群处理更大的数据集，训练更深的神经网络和处理更多的并发任务，同时还要减少任务执行时间以及提高系统整体效率。这需要GPU集群的Scale-up网络规模持续增大，扩展到机架级甚至多机架级。

以太网技术应用在GPU集群互联架构具有诸多优势，例如：行业领先的高速链路，大容量交换机，成熟的生态系统等。目前，多个行业组织正在开发用于AI集群的Scale-up网络技术，这些技术或是对以太网进行扩展，或是将以太网部分组件用作构建模块。

字节跳动基于以太网技术，为AI集群提供了低延迟、高带宽的下一代Scale-up网络方案，满足了AI应用对于GPU之间的高速互联传输需求。

GPU架构和互联方案

2.1GPU架构分析

目前主流的GPU架构都支持Load-Store语义，如下图所示，GPU的计算引擎从寄存器中读写数据并完成数据的处理，LSU（Load-StoreUnit）通过

Load/Store指令在寄存器和DeviceMemory之间，以及DeviceMemory和外部Memory之间完成数据传输。

基于上述架构模型的GPU，计算引擎主要负责数据的处理，LSU负责数据的传

输，如下图所示，两个模块可以并行工作形成流水线，数据传输主要依靠Load和Store语义完成。

实际的GPU架构要比上述的GPU架构模型更加复杂，GPGPU（General

PurposeGPU）架构通常如下图所示，DeviceMemory包括L1/L2Cache和SharedMemory，SharedMemory和L1Cache位于Streaming

Multiprocessor（SM）内部，不能在SM之间进行共享。L2Cache位于SM外部，可以被所有SM共享。GPU外部Memory为GlobalMemory，可以被所有的SM访问，也可以被CPU或者其他GPU访问。

在上述GPU的架构中，GPU主要通过LSU完成数据的传输，如下图所示。计算引擎通过寄存器进行数据的访问，IO时延为ns级。LSU通过Load/Store操作实现SharedMemory与寄存器之间，以及SharedMemory与/L1/L2

Cache之间的数据传输，IO时延为10ns级，IOSize通常为寄存器级

（32/64bit）。当出现CacheMiss时，LSU需要进行GlobalMemory和

SharedMemory之间的数据传输，IO时延为100ns级，IOSize为CacheLineSize（64/128/256Byte）。

在AI应用场景中，计算引擎需要处理大量的数据信息，LSU可以实现数据的高效传输，但是LSU每次传输的数据块比较小，在传输大块数据时，需要LSU下发多个Load/Store指令来完成数据的搬运。Load/Store指令的内存地址或者寄存器地址信息，需要计算引擎提前生成并发给LSU，Load/Store指令的地址信息处理会消耗计算引擎的算力资源。因此通过LSU来完成大块数据的传输，会伴随计算引擎的部分算力资源的消耗。

为了优化GPU数据传输方案，降低计算引擎用于数据传输的算力资源，新型号的GPU在片内增加了类似于DMA引擎的传输模块，如NVIDIA从

Hopper系列的GPU开始，在SM内增加了TensorMemoryAccelerator（TMA），专门用于GlobalMemory到SharedMemory之间的数据传输，如下图所示。

GPU在增加了TMA模块之后，不再需要计算引擎消耗算力资源来在数据传输过程中持续计算Load/Store指令的地址信息，只需要计算引擎将数据传

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2025年GPU Scale-up 互联技术白皮书-字节跳动.docxVIP