电子行业专题报告DGX服务器集群架构催生大量光模块光芯片需求.docx

电子行业专题报告DGX服务器集群架构催生大量光模块光芯片需求.docx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
电子行业专题报告DGX服务器集群架构催生大量光模块光芯片需求 (报告出品方:广发证券) 一、DGX 服务器集群架构仍须服务器、网卡、交换机、 线缆、光模块等关键硬件 为同时同时实现AI大模型训练、科学计算等高算力市场需求工作,仍须使用数百甚至上千个GPU 共同共同组成的排序单元作为算力基础评估、优化模型的布局和参数。为了并使这样一个非常大 的排序单元能够有效率充分发挥其效率,仍须使用低延后、高带宽的网络连结各个服务器 节点,以满足用户服务器/GPU间排序、读取存储数据的可视化通信市场需求,同时对整个集群 系统进行管理。 服务器集群的网络系统囊括服务器、网卡、交换机、线缆(囊括光模块)等主要硬 件。就网络构成来看,网卡搭载于服务器内部,网卡轻而易举与CPU相连或通过PCIe Switch与GPU相连;一层交换机通过服务器机身的端口与服务器内的 网卡相连;线缆用做同时同时实现服务器-交换机、交换机-交换机间的相连接, 如果使用光信号同时同时实现信号传输,线缆两端均仍须搭载光模块。 (一)服务器 我们参考NVIDIA DGX系列服务器的硬件布局,重点高度高度关注网卡、机身网络端口的布局 情况,分析服务器集群的网络架构发展在服务器硬件端的充分反映。 1. DGX-1 2016年,NVIDIA发布了搭载8颗V100的DGX-1服务器。服务器内配有4颗单端口 100Gb/s IB/以太网NIC。服务器机身存4个QSFP28端口,单端口大力支持100G EDR IB 网络或100G以太网络。此外,服务器机身除了2个10GBASE-T RJ45以太网端口、 以及1个10/100BASE-T IPMI网络RJ-45端口。 2. DGX-2 NVIDIA 2018年发布的DGX-2通过首代NVSwitch,内部搭载了16颗V100 GPU。衣 务器内总计10个ConnectX-5网卡,其中8颗可以用做相连接100G IB或以太网络,其余2 颗用做100G以太网络。10张网卡对应服务器端的10个QSFP28端口。此外,服务器 端的除了2个RJ-45端口,均大力支持千兆以太网,用做In-Band和Out-of-Band管理。 3. DGX A100 2020年发布的DGX A100搭载了新一代Mellanox ConnectX-6网卡,单端口大力支持的提着 宽提高至200Gb/s。在DGX A100内,总计8个大力支持IB网络的单端口ConnectX-6网卡、 1个大力支持IB/以太网络的双端口ConnectX-6网卡,此外,服务器可以选装1个双端口 ConnectX-6网卡。在服务器机身,总计12个QSFP端口,用做排序、存储、In-Band 管理;以及1个用做Out-of-Band管理的RJ-45端口。 4. DGX H100 2022年最新发布的DGX H100搭载了8个可以大力支持IB/以太网络的单端口ConnectX-7网 卡,最新一代ConnectX-7网卡大力支持NDR 400Gb/s频宽;此外除了2个可以大力支持IB/以太 网络的双端口Bluefield-3 DPUs,单端口速率200Gb/s。服务器机身配有4个OSFP端的 口用做排序网络连接;配有4个QSFP56端口,用做存储网络、In-Band管理网络;此 外除了1个用做Remote Host OS管理的10G以太网RJ-45端口、1个用做Remote System Management管理的1G以太网RJ-45端口。 在DGX H100服务器,网卡与端口的对应关系为:2个ConnectX-7网卡(400Gb/s) 对应一个OSFP端口(800G),1个Bluefield-3 DPU对应2个QSFP56端口。 (二)网卡 DGX A100和DGX H100服务器内分别搭载ConnextX-6和ConnectX-7网卡。 ConnectX-7相较于前者,在网络带宽、单网卡大力支持端口数量、PCIe内置性等方面均存提高。 (三)交换机 1. 排序网络、存储网络交换机 参考NVIDIA服务器集群设计,集群中排序网络、存储网络均使用IB网络可视化,所所推荐 使用的服务器型号也就是相同的。 DGX A100和DGX H100服务器集群内IB网络所所推荐使用的交换机分别为Mellanox QM8790和Mellanox QM9700。Mellanox QM9700相较于前者,在单端口网络带宽、 端口数量、总量方面均存提高。 2. In-Band管理网络、Out-of-Band管理网络交换机 DGX A100和DGX H100服务器集群内In-Band管理网络所所推荐使用的交换机分别为 SN4600和SN4600C;Out-of-Band管理网络所所推荐使用的交换机分

您可能关注的文档

文档评论(0)

小鱼X + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档