- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
1.引言
人工智能的基础设施在大语言模型训练和推理过程中发挥了关键的作用。随着大语言模型规模不断增大,其对计算和通信的需求也在不断增加。高性能网络是人工智能基础设施的重要组成部分,引起了业界的广泛关注。
大语言模型(LargeLanguageModel)的扩展定律[40]和涌现能力[9]驱动大语言模型参数数量的持续增大,目前大语言模型的参数规模已经扩展到万亿级别,如此巨大的训练任务远超单个服务器的计算和存储能力,需要通过构建包含大量服务器的高性能计算集群来共同完成这些任务。这些服务器节点之间通过高性能网络互联,将工作负载分布在多个节点上加速训练过程。因此,网络性能直接决定了这些服务器节点间的通信效率[31,32],进而影响整个计算集群的吞吐量和性能。并且随着模型规模持续扩大,其带来的分布式训练规模和通信量将会井喷式增长。
综合目前业界的应用以及当前的技术现状,大语言模型的训练网络主要面临着以下重大挑战:
大规模并行扩展
大语言模型的训练需要在数千甚至数万个GPU上进行并行训练,这给网络组网带来了巨大的挑战,需要设计高效的网络拓扑结构和路由算法。
高通量和低延迟
大语言模型训练过程中,不同的GPU之间需要交换大量的数据[23,24]。这可能会导致通信瓶颈[31,32],进而影响训练的效率。尤其是对于大语言模型训练任务而言,整体训练进度的完成往往取决于最后一条消息的到达时间,这使得网络尾延迟指标的重要性大大提高。
高昂的网络成本
大语言模型训练网络的建设和维护成本非常高昂,需要探索新的方法来降低成本,使LLM训练网络更加经济。传统上分布式训练系统网络相关的成本[25]只占到整个基础设施成本的10%左右,而大语言模型的网络成本占比已经提高到总成本的20%。
高可靠和高可用
大语言模型的训练周期比较长,计算节点和网络故障都会导致整个训练过程的重启,进而导致整个训练周期的延长,因此大语言模型的训练对网络的可靠性和可用性有着更高的要求。据统计,在某个千亿大模型的训练总时长中[11],真正用于模型训练的时间只有50%,其他时间都用于处理故障以及进行断点恢复。
本文进一步研究和探讨网络技术在大语言模型训练中的应用。首先阐述了同构和异构网络的特点与优势,然后针对网络的关键技术点,综述互联协议、网络拓扑、拥塞控制等技术在大语言模型训练中的研究进展和成果。随之介绍了业界知名的大语言模型训练网络,并讨论了大语言模型训练网络的未来发展趋势。
2.训练网络分类
大语言模型训练网络有很多种分类方法,比如英伟达根据训练网络的规模、支持的业务类型和用户数量等维度,将网络分为AIfactory和AIcloud两种类型。
本文从网络技术类型角度将训练网络分为同构网络和异构网络两种:
一、同构网络以GoogleTPU为代表,通过使用ICI互联协议,采用3D的环形网格网络构建TPU集群;
二、异构网络以英伟达GPU训练服务器为代表,网络整体是由两个子网络组成,第一个子网络(使用NVLINK或者其他自研的高速总线)用于服务器内部的加速器之间的互联,另一个子网络(使用以太网、RoCE或者IB)用于服务器之间的高速互联。
2.1.同构网络
业界知名的同构网络类型,其中之一就是GoogleTPU使用的自定义网络,另外一个就是Intel的Gaudi2?全RoCE互联方案。
图1GoogleTPUV4组网拓扑
GoogleTPUV4[3]使用自定义网络协议ICI进行高速互联,ICI网络是TPU集群专用网络,在ICI网络内部由64颗TPU和16颗CPU组成一组(即称为一个TPUSlice),通过直连的铜质电缆连接在4*4*4的三维Cube里面,而在这个ICI网络之外就是OCS光学背板互连。GoogleSuperPod在AI工作负载方面具有性能和总拥有成本的优势,这得益于TPU从微架构到系统架构的整体设计,旨在协同特定模型和算法,以充分发挥出极致的并行性能和扩缩效益。
图2IntelGaudi组网示意图
Intel的Gaudi处理器[12,15]突破传统,采用了独特的设计策略。不同于使用高性能总线进行节点内部互联,Gaudi直接在处理器内部集成了RoCE接口。例如,Gaudi2内部整合了21个100GRoCE接口。在HLS-1(类似于英伟达的DGX服务器)中,支持8块Gaudi加速卡,每块卡利用7个100GRoCE接口实现了八块卡之间的全连接(alltoall)互联。此外,另外的14个100GRoCE接口用于实现HLS-1服务器之间的互联。
2.2.异构网络
以NVIDIA为代表的异构网络组网模式,保证了系统的整体性能并降低系统组网成本。H100的GPU服务器[30]由8个搭载ConnectX-7NIC的GPU组成,这些GPU可以通过连接到
文档评论(0)