网站大量收购闲置独家精品文档,联系QQ:2885784924

AI算力行业跟踪深度:辨析ScaleOut与ScaleUp,AEC在光铜互联夹缝中挤出市场的What、Why、How.pptxVIP

AI算力行业跟踪深度:辨析ScaleOut与ScaleUp,AEC在光铜互联夹缝中挤出市场的What、Why、How.pptx

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

;;1.绪论:如何辨析ScaleOut与ScaleUp网络?;若干超节点(SuperPod,如NVL72)组成集群(Cluster,如万卡、十万卡集群);

ScaleOut网络实现集群内所有GPU卡互联,亮点在于网络内连接GPU

数量大,与传统数据中心网络类似;

ScaleUp网络实现超节点内所有GPU卡互联,亮点在于网络内单卡通信带宽高,为AI算力场景下新兴的网络架构。;AI训推需要分布式并行计算,基于对计算效率不断提升的追求,并行计算方式有数据并行(DataParallelism)、流水线并行(PipelineParallelism)及张量并行(TensorParallelism)。

数据并行:将输入数据分配给各个负载,各负载上基于不同数据进行同一模型的训练/推理;

流水线并行:将模型分为若干层分配给各个负载,各负载分别进行不同层的

计算;

张量并行:将模型参数运算的矩阵拆分至各个负载,各负载分别进行不同的矩阵运算。;并行计算催生ScaleUp网络需求:;训推计算的“内存墙”催生出通过ScaleUp网络将显存池化的需求:

单一大模型的参数量与单卡显存的差距(即模型内存墙)、单卡算力与单卡显存间的差距(即算力内存墙)均逐代放大;

除模型参数外,推理计算生成的KVCache(关键中间值的缓存,用于简化计算)占用显存大小也可达模型的50%甚至以上;

因此单卡运算时需从多张卡的显存读取所需参数、数据,为了尽可能减

少数据传输时延,目前产业化应用最优解是使用ScaleUp网络将显存池化,

如NVL72。;以一个通俗的例子辨析ScaleOut与ScaleUp:

上海市有加工厂A,B,C,······,Y,Z,AA,······(对应GPU),各工厂均配有自己的仓库a,b,c,······,y,z,aa,······(对应配套显存);

所有工厂组成一个市内集群(Cluster),每三个工厂组成一个超节点

(SuperPod),之前上海市集群内所有工厂都通过市内高架、快速路连接

(即ScaleUp网络);

现在超节点内工厂做完每一个加工步骤,都需要把中间品汇总再分发至各个工厂进行下一步加工(即张量并行计算),同时开工工厂用到的原料、中间料大小超出自身配套仓库容量(即内存墙);;1.ScaleOut已经成熟,ScaleUp源于AI训推计算范式改变;2.What:DAC、AEC、AOC是什么?;上存在???别;2.三类连接方式在功耗、距离、成本上存在差别;2.三类连接方式在功耗、距离、成本上存在差别;3.Why:为什么AEC在DAC、AOC的夹缝中挤出空间?;由于传输速率、距离均不断提升,光几乎已占据ScaleOut所有互联场景:

目前AIDC内ScaleOut网络的主流端口速率为400G、800G,在英伟达CX-8

网卡及Quantum-X800交换机投入使用后更会高达1.6T;

同时在用于ScaleOut的3层CLOS网络中,自上到下各层距离分别在千米级、百米级,服务器到ToR交换机的距离在10米以内;

前面已经提到,DAC、AEC等电互联在400G及以上速率的有效距离均在

10米以内,因此在ScaleOut场景光是主角。;当前主流速率下铜在10m以内仍可使用,光模块、CPO尚无法替代此场景:

和铜连接相比,光连接最显著的优势是有效距离长,特别是在单通道速率不断提升的趋势下,以单通道100G的800G端口连接为例,AEC的有效范围在10m以内,而AOC可达百米,分立式光模块则更远;

和光连接相比,铜连接芯片复杂度低,在成本、功耗、稳定性上更有优势;

在铜连接有效的距离区间内(如10m的800G传输),铜就是第一选择;

随着单通道速率不断提升,铜的有效距离将不断减小,在铜连接有效距离无法覆盖的场景,光进铜退已经且仍将继续发生,但后续需考虑单通道速率继续提升的难度及所需时间(篇幅有限此处未详细展开,具体细节欢迎;ScaleUp互联GPU数量在数十、数百级别,10m以内铜连接或可全覆盖:

如第一章所述,并行计算、内存墙等瓶颈推动AI计算中涌现出ScaleUp需求,这类需求是增量需求,不构成对ScaleOut网络中光互联需求的侵蚀;

以英伟达GB200NVL72及亚马逊Trn2-Ultra64超级服务器(超节点)为例,一个超节点内需要ScalingUp互联的算力卡在同一或相邻服务器内,连接距离10m,因此都采用铜缆来分别实现柜内和柜外ScalingUp(具体分析详见下一章)。;与光进铜退逻辑类似,距离、尺寸等差距导致铜缆内部有源(AEC)进无源

(DAC)退:

由于多出Retimer(广义上也算DSP),AEC与DAC相比在有效距离上更

文档评论(0)

535600147 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档