ETH-X超节点：探索突破AI算力约束的新途径.docxVIP

下载本文档

1
0
约2.56千字
约 8页
2025-04-02 发布于湖南
举报
版权申诉

ETH-X超节点：探索突破AI算力约束的新途径.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

AI大模型发展与算力需求

AI大模型的发展依赖于持续提升算力。根据ScalingLaw（规模定理），增大模型规模与增加训练数据量是直接提升AI大模型智能水平与性能的关键途径。但对集群算力需求的将呈指数级增长。

长序列是AI大模型发展的另一个重要方向。长序列提高AI大模型回答问题的质量、处理复杂任务的能力以及更强的记忆力和个性化能力的同时,也会加大对训练和推理算力资源的需求1，尤其是对显存资源的需求。因此满足AI大模型发展需求，算力能力的持续提升成为一个重要基础。

图1长序列带来的准确率收益以及显存需求

单芯片算力提升遇阻、

scaleout集群算力提升受限

当前,提升集群算力已面临一些明显的制约因素。首先，单芯片性能提升受到HBM容量带宽增长赶不上算力增长速度的限制，内存墙问题制约算法发挥。如在典型模型与并行方式下，NvidiaHopper一代芯片的有效算力(HFU)明显低于Ampere一代芯片,如图2所示。另一种通过Scaleout扩展集群规模提升整体算力的方式也受到GBS(GlobalBatchSize)不能无限增长的限制，导致在集群规模增大到一定程度后，HFU出现明显下降。最后，模型参数量增大需要更大的模型并行规模，模型并行中Tensor并行或MOE类型的Expert并行都会在GPU之间产生大量的通信，并且这部分通信很难与计算进行overlap。而当前典型一机八卡服务器限制了Tensor并行的规模或Expert并行通过机间网络，这都会导致HFU无法提高。

图2不同型号GPU以及不同规模集群对HFU的影响

通过scaleup扩大HBD（超带宽域）的超节点成为突破方向

HBD（HighBandwidthDomain）是一组以超带宽（HB）互联GPU-GPU的系统2。HBD内GPU-GPU通信带宽是HBD之间GPU-GPU通信带宽的数倍。如NvidiaH100提供900GBpsHB带宽，HBD间GPU-GPU通信带宽只有100GBps。因此在模型并行中将数据量大、无法overlap的部分限制在一个HBD内完成。

当前，HBD限制在一台服务器内，典型1机8卡服务器是8张GPU卡之间通过某种HB连接技术实现互联，构成一个HBD=8的系统。然而更大的参数规模、更长的序列长度、更多的MOE专家数量、更大的集群规模，都造成了更多的通信数据量。HBD=8的情况下，大量的数据通信均需经过HBD间的scaleout网络，因此通信占比提高、HFU下降的问题凸显。

通过构建更大的HBD系统，以scaleup方式提升系统算力是解决上述问题的有效途径之一。如MIT与Meta的研究论文中，通过建模分析3，论证了扩大HBD对训练性能的提升效果。另外，Nvidia也实现了不同规模HBD系统并进行了部署与验证4。

图3HBD超节点典型代表与业务收益举例

Nvidia将HB互联不仅用于GPU-GPU之间，而是将其应用到GPU-CPU/Memory的超大带宽互联，例如GH200、GB200产品。通过此方式为GPU提供一个超带宽访问CPU/Memory的能力。

Nvidia产品具备支持GPU-CPU/Memory的统一内存编制以及GPU通过内存语义接口read/write直接访问CPU/Memory的能力，具有更高效、更直接的特点。但其同步操作的方式会对时延进行限制，制约可访问CPU/Memory的距离与容量。另外，目前的软件生态中，未有支持直接通过内存语义访问CPU/Memory的系统。

相反若使用异步的memoryoffload方式将降低对时延的约束，并发利用多节点CPU/Memory，发挥HB互联的带宽优势。另外，当前memoryoffload已具备一定软件生态上的基础，例如Zerooffload5。

综上所述，超节点是一个以超大带宽（HB）互联16卡以上GPU-GPU以及GPU-CPU/Memory的scaleup系统，以HBD超节点为单位，通过传统scaleout扩展方式可形成更大规模、更高效的算力集群。超节点ScaleUp的核心需求是超大带宽（HB），但规模不需要很大。ScaleOut的核心需求是超大规模。因此ScaleUp网络与ScaleOut网络更适合是相互独立共存的两张网络。

图4ScaleUp超大带宽与ScaleOut超大规模共同构建高算力AI集群

ODCCETH-X计划构建开放超节点产业生态

超节点的核心是HB互联技术，当前工业界已实现的超节点系统均是采用私有技术与协议实现HB互联，例如Nvidia的NVLINK。但此类私有技术与协议由单一企业进行维护，无法保证技术长期、高效的发展。另外，从HBD超节点产品完善角度也无法保证系统的开放，导致无法形成良性、开放的产业生态。

以太网技术凭

您可能关注的文档

文档评论（0）

外卖人-小何 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

ETH-X超节点：探索突破AI算力约束的新途径.docxVIP