AI算力行业跟踪深度：辨析ScaleOut与ScaleUp，AEC在光铜互联夹缝中挤出市场的What、Why、How.pptxVIP

下载本文档

0
0
约3.68千字
约 30页
2025-01-18 发布于北京
举报
版权申诉

AI算力行业跟踪深度：辨析ScaleOut与ScaleUp，AEC在光铜互联夹缝中挤出市场的What、Why、How.pptx

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

;;1.绪论：如何辨析ScaleOut与ScaleUp网络?;若干超节点（SuperPod，如NVL72）组成集群（Cluster，如万卡、十万卡集群）；

ScaleOut网络实现集群内所有GPU卡互联，亮点在于网络内连接GPU

数量大，与传统数据中心网络类似；

ScaleUp网络实现超节点内所有GPU卡互联，亮点在于网络内单卡通信带宽高，为AI算力场景下新兴的网络架构。;AI训推需要分布式并行计算，基于对计算效率不断提升的追求，并行计算方式有数据并行（DataParallelism）、流水线并行（PipelineParallelism）及张量并行（TensorParallelism）。

数据并行：将输入数据分配给各个负载，各负载上基于不同数据进行同一模型的训练/推理；

流水线并行：将模型分为若干层分配给各个负载，各负载分别进行不同层的

计算；

张量并行：将模型参数运算的矩阵拆分至各个负载，各负载分别进行不同的矩阵运算。;并行计算催生ScaleUp网络需求：;训推计算的“内存墙”催生出通过ScaleUp网络将显存池化的需求：

单一大模型的参数量与单卡显存的差距（即模型内存墙）、单卡算力与单卡显存间的差距（即算力内存墙）均逐代放大；

除模型参数外，推理计算生成的KVCache（关键中间值的缓存，用于简化计算）占用显存大小也可达模型的50%甚至以上；

因此单卡运算时需从多张卡的显存读取所需参数、数据，为了尽可能减

少数据传输时延，目前产业化应用最优解是使用ScaleUp网络将显存池化，

如NVL72。;以一个通俗的例子辨析ScaleOut与ScaleUp：

上海市有加工厂A，B，C，······，Y，Z，AA，······（对应GPU），各工厂均配有自己的仓库a，b，c，······，y，z，aa，······（对应配套显存）；

所有工厂组成一个市内集群（Cluster），每三个工厂组成一个超节点

（SuperPod），之前上海市集群内所有工厂都通过市内高架、快速路连接

（即ScaleUp网络）；

现在超节点内工厂做完每一个加工步骤，都需要把中间品汇总再分发至各个工厂进行下一步加工（即张量并行计算），同时开工工厂用到的原料、中间料大小超出自身配套仓库容量（即内存墙）；;1.ScaleOut已经成熟，ScaleUp源于AI训推计算范式改变;2.What：DAC、AEC、AOC是什么?;上存在???别;2.三类连接方式在功耗、距离、成本上存在差别;2.三类连接方式在功耗、距离、成本上存在差别;3.Why：为什么AEC在DAC、AOC的夹缝中挤出空间?;由于传输速率、距离均不断提升，光几乎已占据ScaleOut所有互联场景：

目前AIDC内ScaleOut网络的主流端口速率为400G、800G，在英伟达CX-8

网卡及Quantum-X800交换机投入使用后更会高达1.6T；

同时在用于ScaleOut的3层CLOS网络中，自上到下各层距离分别在千米级、百米级，服务器到ToR交换机的距离在10米以内；

前面已经提到，DAC、AEC等电互联在400G及以上速率的有效距离均在

10米以内，因此在ScaleOut场景光是主角。;当前主流速率下铜在10m以内仍可使用，光模块、CPO尚无法替代此场景：

和铜连接相比，光连接最显著的优势是有效距离长，特别是在单通道速率不断提升的趋势下，以单通道100G的800G端口连接为例，AEC的有效范围在10m以内，而AOC可达百米，分立式光模块则更远；

和光连接相比，铜连接芯片复杂度低，在成本、功耗、稳定性上更有优势；

在铜连接有效的距离区间内（如10m的800G传输），铜就是第一选择;

随着单通道速率不断提升，铜的有效距离将不断减小，在铜连接有效距离无法覆盖的场景，光进铜退已经且仍将继续发生，但后续需考虑单通道速率继续提升的难度及所需时间（篇幅有限此处未详细展开，具体细节欢迎;ScaleUp互联GPU数量在数十、数百级别，10m以内铜连接或可全覆盖：

如第一章所述，并行计算、内存墙等瓶颈推动AI计算中涌现出ScaleUp需求，这类需求是增量需求，不构成对ScaleOut网络中光互联需求的侵蚀；

以英伟达GB200NVL72及亚马逊Trn2-Ultra64超级服务器（超节点）为例，一个超节点内需要ScalingUp互联的算力卡在同一或相邻服务器内，连接距离10m，因此都采用铜缆来分别实现柜内和柜外ScalingUp（具体分析详见下一章）。;与光进铜退逻辑类似，距离、尺寸等差距导致铜缆内部有源（AEC）进无源

（DAC）退：

由于多出Retimer（广义上也算DSP），AEC与DAC相比在有效距离上更