- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
面向智算场景的
高性能网络白皮书
目录
前言 1
术语和缩略语 1
高性能网络关键需求和挑战 3
高性能数据中心网络(HP-DCN) 3
支持超大规模组网是基础 3
超高稳定性是前提 4
极致高性能是核心 5
多维自动化运维体系是必需 6
可规模扩展的安全机制是保障 7
高性能广域网(HP-WAN) 8
有效高吞吐量是焦点 8
公平共享高带宽是关键 8
高性能网络技术架构 9
高性能网络技术现状和趋势 9
中兴高性能网络技术架构 10
高性能数据中心网络关键技术 12
超大规模组网关键技术 12
大规模组网交换机:硬件基础,容量速率双升 12
大规模组网路由协议:可扩展快速部署,组播能力提供 13
超高稳定性关键技术 19
故障无感恢复:硬件检测,多级保障 19
中兴通讯版权所有未经许可不得扩散
链路级可靠:轻量级FEC,链路层重传 21
端网协同的路径控制:端侧传递需求网络精准控制 22
网络隔离与资源保障:网络拓扑隔离,资源合理分配 23
极致高性能关键技术 24
层次化负载均衡:整网规划,局部调优,多粒度负载均衡 24
拥塞控制:算法无关,迅捷智能 25
集合通信卸载:统一编排,轻量传输 27
多维自动化运维关键技术:层次化可观测体系,高精度感知 29
可规模扩展安全机制关键技术:零信任模型,轻量级加密,安全会话无关 32
零信任安全架构 32
可扩展安全协议 33
高性能广域网关键技术 34
主动拥塞避免 34
近源端反馈机制 34
端网协同速率协商 34
任务式传输及配额调度 34
基于流的网络监控 35
7展望 35
8参考文献 37
前言
智算场景的普惠化正带来新一轮网络技术的革新浪潮。
随着生成式人工智能的发展,AI大模型参数量从GPT-3.5的1.75亿,到GPT-4的1.8万亿,预计未来GPT-5将达到十万亿参数规模,迅速膨胀的AI模型需要更大规模的算力集群执行训练。AI大模型以GPU集群分布式训练为基础,根据阿姆达定律,串行占比决定并行效率上限,网络成为影响算力的重要因素。AI训练任务的高精度并行协同特性以及超大集群互联吞吐量对网络性能提出了数量级的提升需求。AI大模型训练的时间往往长达数月,也使得网络的长稳运行变得前所有未有的重要。从网络流量模型来看,AI大模型训练流量与通算流量呈现出完全不同的特征,突发的稀疏大流成为网络常态,聚合流量具备波峰波谷效应明显、周期性等特征,也使得很多通用数据中心的网络技术不再适用。HPC同样对网络提出高性能需求,特别是在可扩展性以及分布式资源的高效利用方面,HPC与AI的需求趋同。一般来说HPC对于时延更加敏感,但部分采用并行通信的计算模型,同样也关注长尾时延。
AI和HPC集群规模和服务范围的扩大对广域网传输也提出全新需求,包含数据协同和数
据快递两大应用场景。数据协同应用主要面向AI/HPC的分布式协同,例如在跨DC的AI训练过程中的是训前模型和数据上载,以及训练期间数据和状态同步过程;数据快递场景包括数据灾备、大规模科学数据传递等。以上都需要广域网具备高性能海量数据传输的能力。
综上,面对大规模AI/HPC的计算、存储和通信需求,不仅数据中心内部的大规模密集数据交换需要高性能网络的支撑,还需要网络能够高效地连接多个数据中心或站点,实现跨地域的AI/HPC业务的高效协同。
本白皮书从面向智算业务的高性能网络需求和技术挑战出发,分析高性能网络技术发展现状和趋势,并探索更适合行业协同发展的高性能网络技术架构和关键技术。
术语和缩略语
缩略语英文全称
缩略语
英文全称
中文含义
AEAD
AuthenticatedEncryptionwithAdditionalData
带有身份认证的加密算
法
AES
AdvancedEncryptionStandard
高级加密标准
AI
ArtificialIntelligence
人工智能
AIGC
ArtificialIntelligenceGeneratedContent
生成式人工智能
ARN
AdaptiveRoutingNotification
自适应路由通知
BBR
BottleneckBandwidthandRound-trippropagation
time
瓶颈带宽和往返传播时
间
BGP
BorderGatewayProtocol
边界网关协议
BIER
BitIndexedExplicitReplication
位索引显式复制
CCO
CollectiveCom
文档评论(0)