- 24
- 0
- 约1.02万字
- 约 40页
- 2025-05-09 发布于北京
- 举报
目录CONTENT
1.引言 1
2.GPU架构和互联方案 2
2.1GPU架构分析 2
2.2GPU互联方案 5
3.下一代Scale-up互联方案 8
3.1需求分析 8
3.2网络方案 10
4.EthLink网络方案 12
4.1EthLink协议栈 13
4.2网络拓扑 18
4.3网络接口 19
1
01
引言
随着机器学习和人工智能等领域的持续发展,AI模型对GPU集群数据处理能力的需求也在不断提升。AI应用需要GPU集群处理更大的数据集,训练更深的神经网络和处理更多的并发任务,同时还要减少任务执行时间以及提高系统整体效率。这需要GPU集群的Scale-up网络规模持续增大,扩展到机架级甚至多机架级。
以太网技术应用在GPU集群互联架构具有诸多优势,例如:行业领先的高速链路,大容量交换机,成熟的生态系统等。目前,多个行业组织正在开发用于AI集群的Scale-up网络技术,这些技术或是对以太网进行扩展,或是将以太网部分组件用作构建模块。
字节跳动基于以太网技术,为AI集群提供了低延迟、高带宽的下一代Scale-up网络方案,满足了AI应用对于GPU之间的高速互联传输需求。
2
02
GPU架构和互联方案
2.1GPU架构分析
目前主流的GPU架构都支持Load-Store语义,如下图所示,GPU的计算引擎从寄存器中读写数据并完成数据的处理,LSU(Load-StoreUnit)通过
Load/Store指令在寄存器和DeviceMemory之间,以及DeviceMemory和外部Memory之间完成数据传输。
3
基于上述架构模型的GPU,计算引擎主要负责数据的处理,LSU负责数据的传
输,如下图所示,两个模块可以并行工作形成流水线,数据传输主要依靠Load和Store语义完成。
实际的GPU架构要比上述的GPU架构模型更加复杂,GPGPU(General
PurposeGPU)架构通常如下图所示,DeviceMemory包括L1/L2Cache和SharedMemory,SharedMemory和L1Cache位于Streaming
Multiprocessor(SM)内部,不能在SM之间进行共享。L2Cache位于SM外部,可以被所有SM共享。GPU外部Memory为GlobalMemory,可以被所有的SM访问,也可以被CPU或者其他GPU访问。
在上述GPU的架构中,GPU主要通过LSU完成数据的传输,如下图所示。计算引擎通过寄存器进行数据的访问,IO时延为ns级。LSU通过Load/Store操作实现SharedMemory与寄存器之间,以及SharedMemory与/L1/L2
Cache之间的数据传输,IO时延为10ns级,IOSize通常为寄存器级
(32/64bit)。当出现CacheMiss时,LSU需要进行GlobalMemory和
4
SharedMemory之间的数据传输,IO时延为100ns级,IOSize为CacheLineSize(64/128/256Byte)。
在AI应用场景中,计算引擎需要处理大量的数据信息,LSU可以实现数据的高效传输,但是LSU每次传输的数据块比较小,在传输大块数据时,需要LSU下发多个Load/Store指令来完成数据的搬运。Load/Store指令的内存地址或者寄存器地址信息,需要计算引擎提前生成并发给LSU,Load/Store指令的地址信息处理会消耗计算引擎的算力资源。因此通过LSU来完成大块数据的传输,会伴随计算引擎的部分算力资源的消耗。
为了优化GPU数据传输方案,降低计算引擎用于数据传输的算力资源,新型号的GPU在片内增加了类似于DMA引擎的传输模块,如NVIDIA从
Hopper系列的GPU开始,在SM内增加了TensorMemoryAccelerator(TMA),专门用于GlobalMemory到SharedMemory之间的数据传输,如下图所示。
5
GPU在增加了TMA模块之后,不再需要计算引擎消耗算力资源来在数据传输过程中持续计算Load/Store指令的地址信息,只需要计算引擎将数据传
您可能关注的文档
- 揽子增量政策落地显效 宏观杠杆率踏上再平衡之路——2024年度宏观杠杆率.pptx
- 商道纵横2025企业可持续发展ESG经理人调研报告.pptx
- 天猫服饰潮流速报-4月.pptx
- 网络自主创新调研报告编委会:2025网信自主创新成果推荐手册.pptx
- 小红书企业员工营销KOS产品通案【互联网】【通案】.pptx
- 小红书搜索市场趋势认知【互联网】【小红书运营】.pptx
- 小红书种草秘籍(小绿本)【小红书运营】.pptx
- 中国氢价指数年度报告 (2024年版)-中国氢能联盟研究院.pptx
- 2024年科技趋势报告-人工智能、量子技术、机器人等将如何塑造未来一年(英文版).docx
- 2024珠联璧合智启湾区:粤港澳大湾区就业趋势报告.docx
原创力文档

文档评论(0)