AI 集群基础设施 InfiniBand 详解.docxVIP

下载本文档

0
0
约2.09万字
约 49页
2025-03-11 发布于江苏
举报
版权申诉

AI 集群基础设施 InfiniBand 详解.docx

1、本文档共49页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

GPU在高性能计算和深度学习加速中扮演着非常重要的角色，GPU的强大的并行计算能力，大大提升了运算性能。随着运算数据量的不断攀升，GPU间需要大量的交换数据，因此，GPU通信性能成为了非常重要的指标。

在AI集群中进行分布式训练时，通信是必要环节，同时也是相比于单机训练而言多出来的系统开销。通信与计算的时间比例往往决定了分布式机器学习系统加速比的上限。

因此，分布式机器学习的关键是设计通信机制，从而降低通信与计算的时间比例，更加高效地训练出高精度模型。

下面给大家介绍AI集群通信的软硬件、NCLL集合通信库、InfiniBand网络通信技术协议、AI集群和AI框架中对于InfiniBand的应用。

文章较长，建议先点赞收藏，后续再慢慢观看。另外，我撰写的大模型相关的博客及配套代码均整理放置在Github：llm-action，有需要的朋友自取。

通信硬件

通信硬件的实现方式

通信的实现方式分为两种类型：机器内通信与机器间通信。

机器内通信：

共享内存（QPI/UPI），比如：CPU与CPU之间的通信可以通过共享内存。

PCIe，通常是CPU与GPU之间的通信。

NVLink，通常是GPU与GPU之间的通信，也可以用于CPU与GPU之间的通信。

机器间通信：

TCP/IP网络协议。

RDMA(RemoteDirectMemoryAccess)网络协议。

InfiniBand

iWARP

RoCE

PCIe

PCI-Express（peripheralcomponentinterconnectexpress），简称PCIe，是一种高速串行计算机扩展总线标准，主要用于扩充计算机系统总线数据吞吐量以及提高设备通信速度。

PCIE本质上是一种全双工的的连接总线，传输数据量的大小由通道数（lane，信道）决定的。

通常，1个连接通道lane称为X1，每个通道lane由两对数据线组成，一对发送，一对接收，每对数据线包含两根差分线。即X1只有1个lane，4根数据线，每个时钟每个方向1bit数据传输。依此类推，X2就有2个lane，由8根数据线组成，每个时钟传输2bit。类似的还有X12、X16、X32。

image.png

2003年PCIe1.0正式发布，可支持每通道传输速率为250MB/s，总传输速率为2.5GT/s。

2007年推出PCIe2.0规范。在PCIe1.0的基础上将总传输速率提高了一倍，达到5GT/s，每通道传输速率从250MB/s上升至500MB/s。

2022年PCIe6.0规范正式发布，总传输速率提高至64GT/s。

2022年6月，PCI-SIG联盟宣布PCIe7.0版规范，单条通道（x1）单向可实现128GT/s传输速率，计划于2025年推出最终版本。

image.png

PCIe吞吐量(可用带宽)计算方法：

吞吐量=传输速率*编码方案

传输速率为每秒传输量（GT/s），而不是每秒位数（Gbps），是因为传输量包括不提供额外吞吐量的开销位，比如：PCIe1x和PCIe2x使用8b/10b编码方案，导致占用了20%(=2/10)的原始信道带宽。

GT/s，Gigatranstionpersecond(千兆传输/秒)，即每一秒内传输的次数，重点在于描述物理层通信协议的速率属性，可以不和链路宽度等关联。

Gbps，GigaBitspersecond(千兆位/秒)。GT/s和Gbps之间不存在成比例的换算关系。

PCIe2.0协议支持5.0GT/s，即每一条Lane上支持每秒钟传输5G个Bit，但这并不意味着PCIe2.0协议的每一条Lane支持5Gbps的速率。为什么这么说呢，因为PCIe2.0的物理层协议中使用的是8b/10b编码方案，即每传输8个Bit，需要发送10个Bit，这多出来的2Bit并不是对上层有意义的信息。那么，PCIe2.0协议的每一条Lane支持5*8/10=4Gbps=500MB/s的速率。以一个PCIe2.0x8的通道为例，x8的可用带宽为4*8=32Gbps=4GB/s。

同理，PCIe3.0协议支持8.0GT/s，即每一条Lane上支持每秒钟传输8G个Bit。而PCIe3.0的物理层协议中使用的是128b/130b编码方案，即每传输128个Bit，需要发送130个Bit，那么，PCIe3.0协议的每一条Lane支持8*128/130=7.877GB/s=984.6MB/s的速率。以一个PCIe3.0x16的通道为例，x16的可用带宽为7.877*16=126.032Gbps=15.754GB/s。

PCIE体系架构：

PCIE体系架构一般包含根组件RC（roo

您可能关注的文档

文档评论（0）

stereo + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

AI 集群基础设施 InfiniBand 详解.docxVIP