- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
AI大模型发展与算力需求
AI大模型的发展依赖于持续提升算力。根据ScalingLaw(规模定理),增大模型规模与增加训练数据量是直接提升AI大模型智能水平与性能的关键途径。但对集群算力需求的将呈指数级增长。
长序列是AI大模型发展的另一个重要方向。长序列提高AI大模型回答问题的质量、处理复杂任务的能力以及更强的记忆力和个性化能力的同时,也会加大对训练和推理算力资源的需求1,尤其是对显存资源的需求。因此满足AI大模型发展需求,算力能力的持续提升成为一个重要基础。
图1长序列带来的准确率收益以及显存需求
单芯片算力提升遇阻、
scaleout集群算力提升受限
当前,提升集群算力已面临一些明显的制约因素。首先,单芯片性能提升受到HBM容量带宽增长赶不上算力增长速度的限制,内存墙问题制约算法发挥。如在典型模型与并行方式下,NvidiaHopper一代芯片的有效算力(HFU)明显低于Ampere一代芯片,如图2所示。另一种通过Scaleout扩展集群规模提升整体算力的方式也受到GBS(GlobalBatchSize)不能无限增长的限制,导致在集群规模增大到一定程度后,HFU出现明显下降。最后,模型参数量增大需要更大的模型并行规模,模型并行中Tensor并行或MOE类型的Expert并行都会在GPU之间产生大量的通信,并且这部分通信很难与计算进行overlap。而当前典型一机八卡服务器限制了Tensor并行的规模或Expert并行通过机间网络,这都会导致HFU无法提高。
图2不同型号GPU以及不同规模集群对HFU的影响
通过scaleup扩大HBD(超带宽域)的超节点成为突破方向
HBD(HighBandwidthDomain)是一组以超带宽(HB)互联GPU-GPU的系统2。HBD内GPU-GPU通信带宽是HBD之间GPU-GPU通信带宽的数倍。如NvidiaH100提供900GBpsHB带宽,HBD间GPU-GPU通信带宽只有100GBps。因此在模型并行中将数据量大、无法overlap的部分限制在一个HBD内完成。
当前,HBD限制在一台服务器内,典型1机8卡服务器是8张GPU卡之间通过某种HB连接技术实现互联,构成一个HBD=8的系统。然而更大的参数规模、更长的序列长度、更多的MOE专家数量、更大的集群规模,都造成了更多的通信数据量。HBD=8的情况下,大量的数据通信均需经过HBD间的scaleout网络,因此通信占比提高、HFU下降的问题凸显。
通过构建更大的HBD系统,以scaleup方式提升系统算力是解决上述问题的有效途径之一。如MIT与Meta的研究论文中,通过建模分析3,论证了扩大HBD对训练性能的提升效果。另外,Nvidia也实现了不同规模HBD系统并进行了部署与验证4。
图3HBD超节点典型代表与业务收益举例
Nvidia将HB互联不仅用于GPU-GPU之间,而是将其应用到GPU-CPU/Memory的超大带宽互联,例如GH200、GB200产品。通过此方式为GPU提供一个超带宽访问CPU/Memory的能力。
Nvidia产品具备支持GPU-CPU/Memory的统一内存编制以及GPU通过内存语义接口read/write直接访问CPU/Memory的能力,具有更高效、更直接的特点。但其同步操作的方式会对时延进行限制,制约可访问CPU/Memory的距离与容量。另外,目前的软件生态中,未有支持直接通过内存语义访问CPU/Memory的系统。
相反若使用异步的memoryoffload方式将降低对时延的约束,并发利用多节点CPU/Memory,发挥HB互联的带宽优势。另外,当前memoryoffload已具备一定软件生态上的基础,例如Zerooffload5。
综上所述,超节点是一个以超大带宽(HB)互联16卡以上GPU-GPU以及GPU-CPU/Memory的scaleup系统,以HBD超节点为单位,通过传统scaleout扩展方式可形成更大规模、更高效的算力集群。超节点ScaleUp的核心需求是超大带宽(HB),但规模不需要很大。ScaleOut的核心需求是超大规模。因此ScaleUp网络与ScaleOut网络更适合是相互独立共存的两张网络。
图4ScaleUp超大带宽与ScaleOut超大规模共同构建高算力AI集群
ODCCETH-X计划构建开放超节点产业生态
超节点的核心是HB互联技术,当前工业界已实现的超节点系统均是采用私有技术与协议实现HB互联,例如Nvidia的NVLINK。但此类私有技术与协议由单一企业进行维护,无法保证技术长期、高效的发展。另外,从HBD超节点产品完善角度也无法保证系统的开放,导致无法形成良性、开放的产业生态。
以太网技术凭
您可能关注的文档
最近下载
- 办公楼空调系统的高效维护方案.docx
- 贵州省遵义市红花岗区第十二中学2023-2024学年七年级下学期期中数学试题(原卷版).docx VIP
- 贵州省遵义市红花岗区第十二中学2023-2024学年七年级下学期期中数学试题(解析版).docx VIP
- 《利用本地农村乡土资源助推美术教学的研究》研究报告.doc
- 市委党校物业管理服务总体方案.doc VIP
- 国有企业合规管理办法.pdf VIP
- 2024《盒马鲜生冷供应链物流成本现状、问题及完善对策研究》11000字.docx
- 机器视觉软件:Basler二次开发_(3).Basler相机驱动与SDK安装.docx
- 高中语文(统编版)必修上册+下册单元任务与人文主题 复习梳理.docx
- 2019年重庆市高职分类招生考试(中职类)药剂类真题.pdf VIP
文档评论(0)