通信行业AI时代的网络:需求从何而来,创新将走向何方?.docxVIP

通信行业AI时代的网络:需求从何而来,创新将走向何方?.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

内容目录

投资要件 5

从云计算时代迈向AI时代,为什么通信愈发重要 6

大模型时代的多卡合作原理,模型并行与数据并行 6

大模型时代的多卡互联核心:同步的准确率 8

大模型时代的系统工程:监测-总结-创新,迭代永远在路上。 11

通信协议的竞争与迭代:承载AI数据流的话语权 13

节点内通信—大厂核心壁垒,算力“摩尔定律”的希望 13

节点间通信协议:历久弥新,封闭与开放之争 19

AI推动下,网络硬件创新将走向何方? 23

光、铜与硅,传输介质之争将走向何方 23

交换机的创新:光交换机初出茅庐 24

网络架构的创新:叶脊之后,走向何方? 26

数据中心集群的创新:未来算力网络的终极形式? 29

投资建议:创新永不停,核心环节与新变量两手抓 31

风险提示 33

图表目录

图表1:数据并行演示图 7

图表2:模型并行 7

图表3:多维混合并行下的AI集群构建 8

图表4:同步并行 9

图表5:异步并行 9

图表6:环形同步 10

图表7:环形同步原理 10

图表8:Wireshark图形用户界面 11

图表9:DPI和DFI的流程比较 12

图表10:浩瀚深度DPI产品部署方式 12

图表11:浩瀚深度DPI产品功能 12

图表12:PCIe6.0版本的带宽大幅提高 13

图表13:PCIeSwitch架构 14

图表14:历代NVlink性能跃升 15

图表15:P100NVLINK 15

图表16:A100引入NV-linkSwitch芯片 16

图表17:面向游戏显卡的NVLINK桥接器 16

图表18:第五代NVLINK交换机 17

图表19:HB-DOMIN提升与训练性能的关系 17

图表20:GB200机柜支持72卡NVLINK 18

图表21:AMD用于内部互联的InfintyFabric 18

图表22:RDMA与传统TCP/IP在显卡连接时的对比 19

图表23:英伟达收购Mellanox 20

图表24:Sharp协议下给通信集群带来的提升 21

努表25:超以网联盟 21

努表26:AMD发布会支持以网 22

努表27:GB200机柜内采用纯连接 23

努表28:OCS交换机原理 25

努表29:谷歌OCS交换机 26

努表30:纵横交换机制 27

努表31:CLOS网络架构 27

努表32:基础树形网络 27

努表33:胖树三层架构 27

努表34:胖树架构浪费计 资源 28

努表35:矛科大二层网络 28

努表36:蜻蜓架构 29

努表37:Groq使用蜻蜓架构来构建集群 29

努表38:Rail-only架构 29

努表39:相关标的列表 32

1. 资要件

市场对于信网络在AI训练中的重要程度认识不足。AI行情以来,市场更加从产业链逻辑关注网络产业链的研究,主要研究方向集中在每一代网络架构需要的光模块数量,并以此为基础进行产业链各个环节的产量与业绩测,但市场对于AI与信的底层关系

的研究较少。本文从模型,多卡步,训练性价比等三大方面,对AI时代信网络的核心地位进行更深入的论。

概括来看,信在AI时代站上C位主要有三大原因。第一,日益庞大的模型积下,显卡的数量和连接后的运效率直接决定了训练需的时间,而时间,恰恰是日益激烈的巨AI竞赛中最为宝贵的资源。第二,从训练的原理出发,在主流的并行模式由模型并行转向数据并行后,每一层运后,都需要集群内的不NPU间对齐已有参数,数以千计的芯片时间的对齐过程,要保证低延迟与准确,对网络的要求极高。第三,网络故障的成本极高,当下模型训练时间往往持续数月,一旦故障或中断较多,即使是回档

至几小时前的存档点,对于整训练效率和成本也会产生极大的耗,对于分秒必争的巨AI产品迭代来,更为致命。时,当下集群规模已然行至万卡,而其中的连接部件可能数以十万计,如何保证这些部件的整稳定和良品率,已经变成了一项极其深奥的系工程。

市场对 信网络未来迭代方向认识不足。市场对于 信网络的迭代更多的认识 留在跟弥显卡换代的研究层面。我们认为,硬件迭代带来的更新的周期和方向相对固定,而其

余方向的迭代和产业链创新程度与日俱增。时,当前海 巨 的AI资本 入战争已经达到数百亿美元级别,而模型参数的扩张,巨 的惨烈厮杀依然激烈。现如今,“降本”、“开放”和 力规模 间的平衡将是网络创新的主要议 。

总来看,产业链对于前沿的主要集中于三个方向。第一,信介质迭代,这里面既包括光、、

文档评论(0)

535600147 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档