- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
表1:不同传输技术使用情况对比 6
表2:各个版本的PCIe传输速度表 7
表3:PCIe迭代升级的同时插损预算不断提升、信号传输距离不断缩短 8
表4:选用低损PCB的方案会带来较大的成本增加 8
表5:Retimer基本工作流程 8
表6:CXL技术优势 12
表7:不同版本NVLink传输速度 17
表8:以太网五大应用具体内容 19
一、AI需求推动运力持续增长,互联方案重要性显著提升
AI相关应用的快速发展正推动“算力”和“存力”需求快速增长,系统需要更高、更强的算力以及带宽更高、容量更大的内存。在“算力”和“存力”增长的同时,对“运力”也提出更高需求。
“运力”是指在计算和存储之间搬运数据的能力。在AI大模型业务场景下,模型参数需要通过高速互联网络在不同的服务器间、卡间进行同步交互,且随着模型参数规模的增长,传输数据量持续增长,需要更加高速、实时、可靠的算内网络支持。AI需求正推动运力持续提升。
图1:英特尔至强6性能核处理器着重强调了运力相关内容
资料来源:Intel,
AI计算集群的互联通信能力由内到外可分为三大层级:1)Die-to-Die(裸片间)互联:发生在芯片封装内,实现芯片内部不同功能模块间的数据交换;2)Chip-to-Chip(片间)互联:实现服务器内部,主板上不同芯片间(如CPU-GPU,GPU-GPU)的数据通信;3)Board-to-Board
(机间)互联:在服务器外部的通信,实现服务器-交换机、交换机-交换机之间的数据传输,并层层叠加形成数据中心集群的组网架构。
图2:数据中心各层级互联通信
资料来源:CMC资本,
数据中心性能提升方式主要有两种:1)Scale-up(向上/垂直扩展):通过增加单个系统的资源(如芯片算力、存力)以提升性能,即让一个单一的系统变得更加强大;英伟达通过集成36颗GB200x芯片推出的DGXGB200系统。2)Scale-out(横向/水平扩展):通过增加更多的相同或相似配置的系统来分散工作负载,即添加更多的独立系统来共同完成任务;如英伟达DGXSuperPOD,可集成至少8个甚至更多DGXGB200系统,并通过不断的拓展来实现数万颗GB200芯片的聚集。
图3:Scale-upVSScale-out
资料来源:CMC资本,
PCIe作为CPU和GPU之间的数据传输方案,经过数次迭代,已达到近百GB的数据传输速率,同时具有较强的可拓展性。然而,这依然无法满足高速数据带宽的需求。除此之外,由于
GPU连接数量的增加,GPU之间的通信技术如GPUDirect、NVLink和RDMA等技术被大量应用。NVLink的出现在一定程度上解决了PCIe带宽和传输瓶颈的问题,但是在较低速的连接需求中,PCIe依然是一种适合的解决方案。GPUDirect、RDMA和InfiniBand通常在分布式系统和多GPU集群中有大量的应用。CXL具有更好的灵活性和可扩展性,能支持不同设备之间的混合连接。
表1:不同传输技术使用情况对比
互联类型 互联方案 技术拓展(实现) 功能描述 优势
互联类型 互联方案 技术拓展(实现) 功能描述 优势
单GPU卡
PCle 无 高速串行点对点双通道高带宽传输CXL CXLmemory 支持多种平台的新型高速互联技术
GPUDirectStorage 允许GPU直接访问存储设备
将数据从源GPU复制到同一节点的另一个
能支持多种不同类型硬件设备可扩展性强
能将不同计算设备和内存直连且扩展性高
无需将数据复制到CPU的内存中直接访问
GPUDirect
GPUDirectP2P
GPUDirectRDMA
GPU不需要数据暂存GPUDirect技术和RDMA技术结合,允许GPU
直接访RDMA的数据
无需CPU的参与而直接进行数据访问
直接在GPU和RDMA网络设备进行数据传输和通信,显著降低了延迟
多GPU卡
NVSwitch 无 实现了单服务器8个GPU的全连接 扩展了NVLink在GPU连接数量上的限制NVLink 无 连接多个GPU之间或GPU与其他设备 解决了PCle相对较低的传输带宽问题
RDMA
InfiniBand(IB)
通过RDMA操作节点之间的高速直接内存访问和数据传输
通过原生RDMA支持来快速访问内存和进行高效的数据传输
实现RDMA功能来访问远程主机中的数
RoCE 标准以太网上实现的RDMA技术
据
iWAPP 基于TPC/IP协议的RDMA
您可能关注的文档
- 2025年展望系列之五:2025,宽货币更进一步.docx
- 2025年展望系列之五:2025,银行资本债把握节奏和尺度.docx
- AI行业跟踪报告第50期:OpenAI十二日发布会“收官”,AGI发展又一里程碑.docx
- Alpha因子跟踪月报:2024股票Alpha因子表现.docx
- A股2025年盈利与行业配置展望:A股盈利有望止跌回升,配置聚焦三条线索.docx
- A股趋势与风格定量观察:市场整体维持震荡,大盘风格有所回升.docx
- A股市场2025年度拥抱高质量发展.docx
- A股中观景气全景扫描(12月第4期):A股整体景气小幅下降,金融综合景气小幅上涨.docx
- CES2025即将召开,AI仍是市场主线.docx
- DEEPSEEKV3发布,技术创新和商业化落地的共振.docx
文档评论(0)