半导体行业跟踪报告之二十四:网络交换是AI集群互联核心,盛科通信交换芯片国内领先.pptxVIP

半导体行业跟踪报告之二十四:网络交换是AI集群互联核心,盛科通信交换芯片国内领先.pptx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

分布式训练就是通过多台节点构建出一个计算能力和显存能力超大的集群,来应对大模型训练中算力墙和存储墙这两个主要挑战。而联接这个超级集群的高性能网络直接决定了智算节点间的通信效率,进而影响整个智算集群的吞吐量和性能。要让整个智算集群获得高的吞吐量,高性能网络需要具备低时延、大带宽、长期稳定性、大规模扩展性和可运维几个关键能力。

InfiniBand和以太网RoCEv2是当前智算网络互联主要方案。要满足智算网络的低时延、大带宽、稳定运行、大规模以及可运维的需求,目前业界比较常用的网络方案是InfiniBand方案和RoCEv2方案。

1)Infiniband

InfiniBand网络的关键组成包括SubnetManager(SM)、InfiniBand网卡、InfiniBand交换机和InfiniBand连接线缆。

支持InfiniBand网卡的厂家以NVIDIA为主。InfiniBand网卡在速率方面保持着快速的发展。200Gbps的HDR已经实现了规模化的商用部署,400Gbps的

一、InfiniBand与以太网是AI大模型训练集群的主要互联技术

AI模型参数规模不断扩大,对大模型训练网络提出更高要求。随着以GPT3.0为代表的大模型展现出令人惊艳的能力后,智算业务往海量参数的大模型方向发展已经成为一个主流技术演进路径。以自然语言处理(NLP)为例,模型参数已经达到了千亿级别。计算机视觉(CV)、广告推荐、智能风控等领域的模型参数规模也在不断的扩大,正在往百亿和千亿规模参数的方向发展。

大模型训练中大规模的参数对算力和显存提出了更高的要求,千亿参数模型需要2TB显存,当前的单卡显存容量不够。即便出现了大容量的显存,如果用单卡训练的话也需要32年。为了缩短训练时间,通常采用分布式训练技术,对模型和数据进行切分,采用多机多卡的方式将训练时长缩短到周或天的级别。

图表1:传统训练与大模型训练的不同

行业研究

网络交换是AI集群互联核心,盛科通信交换芯片国内领先

——半导体行业跟踪报告之二十四

敬请参阅最后一页特别声明-1-证券研究报告

分析师:刘凯

执业证书编号:S0930517100002021kailiu@

分析师:孙啸

执业证书编号:S0930524030002021sunxiao@

11/2302/2405/2408/24

电子行业沪深300

资料来源:Wind

电子行业

买入(维持)

行业与沪深300指数对比图

作者

21%

8% -4%--17%-

2024年11月18日

-29%

资料来源:《智算中心网络架构白皮书》

资料来源:《智算中心网络架构白皮书》

2)RoCEv2网络

RoCEv2网络则是一个纯分布式的网络,由支持RoCEv2的网卡和交换机组成,一般情况下是两层架构。支持RoCE网卡的厂家比较多,主流厂商为NVIDIA、Intel、Broadcom。数据中心服务器网卡主要以PCIe卡为主。RDMA网卡的端口PHY速率一般是50Gbps起,当前商用的网卡单端口速率已达400Gbps。

图表3:RoCEv2网络架构

NDR的网卡也已经开始商用部署。交换机方面,NVIDIA在2021年推出了

400Gbps的Quantum-2系列交换机(64*400G)。交换机上有32个800GOSFP口,需要通过线缆转接出64个400GQSFP。InfiniBand交换机上不运行任何路由协议。整个网络的转发表是由集中式的子网管理器(SubnetManager,简称SM)进行计算并统一下发的。除了转发表以外,SM还负责管理InfiniBand子网的Partition、QoS等配置。

图表2:Infiniband网络架构

敬请参阅最后一页特别声明

文档评论(0)

策划大师 + 关注
实名认证
文档贡献者

资深营销策划人,20年从业经验,服务过众多大型企业,广受赞誉。

1亿VIP精品文档

相关文档