- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
内容目录
投资要件 5
从云计算时代迈向AI时代,为什么通信愈发重要 6
大模型时代的多卡合作原理,模型并行与数据并行 6
大模型时代的多卡互联核心:同步的准确率 8
大模型时代的系统工程:监测-总结-创新,迭代永远在路上。 11
通信协议的竞争与迭代:承载AI数据流的话语权 13
节点内通信—大厂核心壁垒,算力“摩尔定律”的希望 13
节点间通信协议:历久弥新,封闭与开放之争 19
AI推动下,网络硬件创新将走向何方? 23
光、铜与硅,传输介质之争将走向何方 23
交换机的创新:光交换机初出茅庐 24
网络架构的创新:叶脊之后,走向何方? 26
数据中心集群的创新:未来算力网络的终极形式? 29
投资建议:创新永不停,核心环节与新变量两手抓 31
风险提示 33
图表目录
图表1:数据并行演示图 7
图表2:模型并行 7
图表3:多维混合并行下的AI集群构建 8
图表4:同步并行 9
图表5:异步并行 9
图表6:环形同步 10
图表7:环形同步原理 10
图表8:Wireshark图形用户界面 11
图表9:DPI和DFI的流程比较 12
图表10:浩瀚深度DPI产品部署方式 12
图表11:浩瀚深度DPI产品功能 12
图表12:PCIe6.0版本的带宽大幅提高 13
图表13:PCIeSwitch架构 14
图表14:历代NVlink性能跃升 15
图表15:P100NVLINK 15
图表16:A100引入NV-linkSwitch芯片 16
图表17:面向游戏显卡的NVLINK桥接器 16
图表18:第五代NVLINK交换机 17
图表19:HB-DOMIN提升与训练性能的关系 17
图表20:GB200机柜支持72卡NVLINK 18
图表21:AMD用于内部互联的InfintyFabric 18
图表22:RDMA与传统TCP/IP在显卡连接时的对比 19
图表23:英伟达收购Mellanox 20
图表24:Sharp协议下给通信集群带来的提升 21
努表25:超以网联盟 21
努表26:AMD发布会支持以网 22
努表27:GB200机柜内采用纯连接 23
努表28:OCS交换机原理 25
努表29:谷歌OCS交换机 26
努表30:纵横交换机制 27
努表31:CLOS网络架构 27
努表32:基础树形网络 27
努表33:胖树三层架构 27
努表34:胖树架构浪费计 资源 28
努表35:矛科大二层网络 28
努表36:蜻蜓架构 29
努表37:Groq使用蜻蜓架构来构建集群 29
努表38:Rail-only架构 29
努表39:相关标的列表 32
1. 资要件
市场对于信网络在AI训练中的重要程度认识不足。AI行情以来,市场更加从产业链逻辑关注网络产业链的研究,主要研究方向集中在每一代网络架构需要的光模块数量,并以此为基础进行产业链各个环节的产量与业绩测,但市场对于AI与信的底层关系
的研究较少。本文从模型,多卡步,训练性价比等三大方面,对AI时代信网络的核心地位进行更深入的论。
概括来看,信在AI时代站上C位主要有三大原因。第一,日益庞大的模型积下,显卡的数量和连接后的运效率直接决定了训练需的时间,而时间,恰恰是日益激烈的巨AI竞赛中最为宝贵的资源。第二,从训练的原理出发,在主流的并行模式由模型并行转向数据并行后,每一层运后,都需要集群内的不NPU间对齐已有参数,数以千计的芯片时间的对齐过程,要保证低延迟与准确,对网络的要求极高。第三,网络故障的成本极高,当下模型训练时间往往持续数月,一旦故障或中断较多,即使是回档
至几小时前的存档点,对于整训练效率和成本也会产生极大的耗,对于分秒必争的巨AI产品迭代来,更为致命。时,当下集群规模已然行至万卡,而其中的连接部件可能数以十万计,如何保证这些部件的整稳定和良品率,已经变成了一项极其深奥的系工程。
市场对 信网络未来迭代方向认识不足。市场对于 信网络的迭代更多的认识 留在跟弥显卡换代的研究层面。我们认为,硬件迭代带来的更新的周期和方向相对固定,而其
余方向的迭代和产业链创新程度与日俱增。时,当前海 巨 的AI资本 入战争已经达到数百亿美元级别,而模型参数的扩张,巨 的惨烈厮杀依然激烈。现如今,“降本”、“开放”和 力规模 间的平衡将是网络创新的主要议 。
总来看,产业链对于前沿的主要集中于三个方向。第一,信介质迭代,这里面既包括光、、
原创力文档


文档评论(0)