通信行业AI时代的网络：需求从何而来，创新将走向何方？.docxVIP

下载本文档

82
0
约2.19万字
约 32页
2024-05-26 发布于北京
举报
版权申诉

通信行业AI时代的网络：需求从何而来，创新将走向何方？.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

内容目录

投资要件 5

从云计算时代迈向AI时代，为什么通信愈发重要 6

大模型时代的多卡合作原理，模型并行与数据并行 6

大模型时代的多卡互联核心：同步的准确率 8

大模型时代的系统工程：监测-总结-创新，迭代永远在路上。 11

通信协议的竞争与迭代：承载AI数据流的话语权 13

节点内通信—大厂核心壁垒，算力“摩尔定律”的希望 13

节点间通信协议：历久弥新，封闭与开放之争 19

AI推动下，网络硬件创新将走向何方？ 23

光、铜与硅，传输介质之争将走向何方 23

交换机的创新：光交换机初出茅庐 24

网络架构的创新：叶脊之后，走向何方？ 26

数据中心集群的创新：未来算力网络的终极形式？ 29

投资建议：创新永不停，核心环节与新变量两手抓 31

风险提示 33

图表目录

图表1：数据并行演示图 7

图表2：模型并行 7

图表3：多维混合并行下的AI集群构建 8

图表4：同步并行 9

图表5：异步并行 9

图表6：环形同步 10

图表7：环形同步原理 10

图表8：Wireshark图形用户界面 11

图表9：DPI和DFI的流程比较 12

图表10：浩瀚深度DPI产品部署方式 12

图表11：浩瀚深度DPI产品功能 12

图表12：PCIe6.0版本的带宽大幅提高 13

图表13：PCIeSwitch架构 14

图表14：历代NVlink性能跃升 15

图表15：P100NVLINK 15

图表16：A100引入NV-linkSwitch芯片 16

图表17：面向游戏显卡的NVLINK桥接器 16

图表18：第五代NVLINK交换机 17

图表19：HB-DOMIN提升与训练性能的关系 17

图表20：GB200机柜支持72卡NVLINK 18

图表21：AMD用于内部互联的InfintyFabric 18

图表22：RDMA与传统TCP/IP在显卡连接时的对比 19

图表23：英伟达收购Mellanox 20

图表24：Sharp协议下给通信集群带来的提升 21

努表25：超以网联盟 21

努表26：AMD发布会支持以网 22

努表27：GB200机柜内采用纯连接 23

努表28：OCS交换机原理 25

努表29：谷歌OCS交换机 26

努表30：纵横交换机制 27

努表31：CLOS网络架构 27

努表32：基础树形网络 27

努表33：胖树三层架构 27

努表34：胖树架构浪费计资源 28

努表35：矛科大二层网络 28

努表36：蜻蜓架构 29

努表37：Groq使用蜻蜓架构来构建集群 29

努表38：Rail-only架构 29

努表39：相关标的列表 32

1. 资要件

市场对于信网络在AI训练中的重要程度认识不足。AI行情以来，市场更加从产业链逻辑关注网络产业链的研究，主要研究方向集中在每一代网络架构需要的光模块数量，并以此为基础进行产业链各个环节的产量与业绩测，但市场对于AI与信的底层关系

的研究较少。本文从模型，多卡步，训练性价比等三大方面，对AI时代信网络的核心地位进行更深入的论。

概括来看，信在AI时代站上C位主要有三大原因。第一，日益庞大的模型积下，显卡的数量和连接后的运效率直接决定了训练需的时间，而时间，恰恰是日益激烈的巨AI竞赛中最为宝贵的资源。第二，从训练的原理出发，在主流的并行模式由模型并行转向数据并行后，每一层运后，都需要集群内的不NPU间对齐已有参数，数以千计的芯片时间的对齐过程，要保证低延迟与准确，对网络的要求极高。第三，网络故障的成本极高，当下模型训练时间往往持续数月，一旦故障或中断较多，即使是回档

至几小时前的存档点，对于整训练效率和成本也会产生极大的耗，对于分秒必争的巨AI产品迭代来，更为致命。时，当下集群规模已然行至万卡，而其中的连接部件可能数以十万计，如何保证这些部件的整稳定和良品率，已经变成了一项极其深奥的系工程。

市场对信网络未来迭代方向认识不足。市场对于信网络的迭代更多的认识留在跟弥显卡换代的研究层面。我们认为，硬件迭代带来的更新的周期和方向相对固定，而其

余方向的迭代和产业链创新程度与日俱增。时，当前海巨的AI资本入战争已经达到数百亿美元级别，而模型参数的扩张，巨的惨烈厮杀依然激烈。现如今，“降本”、“开放”和力规模间的平衡将是网络创新的主要议。

总来看，产业链对于前沿的主要集中于三个方向。第一，信介质迭代，这里面既包括光、、

通信行业AI时代的网络：需求从何而来，创新将走向何方？.docx 原文免费试下载