面向大规模智算集群场景光互连技术白皮书（2025年）-.docxVIP

下载本文档

5
0
约2.84万字
约 76页
2025-10-28 发布于北京
举报
版权申诉

面向大规模智算集群场景光互连技术白皮书（2025年）-.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向大规模智算集群场景光互连技术白皮书

（2025年）

前言

当前，智算集群已成为支撑人工智能大模型训练、自动驾驶算法迭代等前沿领域的核心基础设施，并以惊人的速度从万卡向十万卡级规模演进。随着单节点算力突破每秒百亿亿次，这类超大规模集群的极致计算能力对互连链路带宽、延迟和功耗提出了极其严苛的要求。传统基于铜介质的电互连方案，正面临“带宽墙”、“延迟墙”及“功耗墙”等三重严峻挑战：单通道速率难以突破400Gbps，传输延迟高达数微秒，单机架互连功耗占比更是超过40%，这一系列瓶颈已成为制约超大规模智算集群算力释放的核心障碍。

相较于传统可插拔光模块等设备级光互连技术，芯片级光互连正在开辟全新的技术路径和产业赛道。它通过先进封装将光引擎与电芯片合封在一起，把电信号的传输距离从米级大幅压缩至毫米级，从而改写了物理层互连架构，实现50%以上的系统能效提升。由此构建的“芯片—设备—集群”一贯式全光互连架构，已被业界广泛认定为下一代智算基础设施的关键技术。

本白皮书系统性剖析芯片级光互连技术的核心原理和架构设计，深入探讨光源、调制器等关键器件的技术发展路径。同时，全面梳理芯片级光互连在国内外的产业现状，客观研判未来演进趋势和技术挑战。期望通过产学研用多方协作，加速芯片级光互连技术从实验室原型走向规模化商用落地，推动我国智算基础设施在硬件架构层面实现跨越式升级，为数字经济的高质量发展筑牢坚实的算力基石。

面向大规模智算集群场景光互连技术白皮书(2025)

前言 II

1.下一代智算集群提出近乎严苛的互连需求 1

1.1.大模型的巨量迭代引发智算集群架构变革 1

1.2.大规模智算集群呼唤“光进电退”技术 2

2.极致化需求驱动光互连技术革新 8

2.1.业界存在两大类光互连技术 8

2.1.1.设备级光互连：光交换机的演进与应用 9

2.1.2.设备级光互连：可插拔光模块的演进与应用 10

2.1.3.芯片级光互连：从近封装到光学I/O 11

2.1.4.新型光互连技术具备巨大潜力 15

2.2.芯片级光互连三大技术路线场景互补 16

2.2.1.芯片级光互连技术的组成原理 16

2.2.2.三大技术路线并驾齐驱，硅光或成未来主流 19

3.前瞻性芯片级光互连生态迎来关键窗口期 23

3.1.国际产业由巨头牵引率先打通产业链 23

3.2.国内处于从研究向应用转化的起步阶段 28

4.规模化应用需跨越技术和产业的双重挑战 35

5.呼吁产学研擘画一贯式全光互连产业蓝图 41

缩略语列表 43

参考文献 47

面向大规模智算集群场景光互连技术白皮书(2025)

1.下一代智算集群提出近乎严苛的互连需求

1.1.大模型的巨量迭代引发智算集群架构变革

实现通用人工智能（AGI,ArtificialGeneralIntelligent）已成为大模型未来发展方向的广泛共识。大模型技术总体仍遵循扩展法则（ScalingLaw），参数已迈向万亿甚至十万亿规模，对智能算力的需求呈现爆炸式增长。如下图所示，模型参数规模的增长速度约每两年400倍，其算法结构在原有Transformer的基础上，引入扩散模型、专家系统（MoE,MixtureofExpert）等，使模型泛化能力增强，并具备处理10M+超长序列能力，推动芯片算力（FLOPS）约每两年3倍的提升，需要至少百倍规模的集群演进速度来支撑大模型的发展，但芯片间的互连能力提升缓慢，只有约每两年1.4倍，远落后于模型规模和算力的演进速度。

图1-1智算场景中各技术领域扩展趋势[1]

超大模型的训练过程尤其是张量并行（TP,TensorParallelism）、专家并行（EP,ExpertParallelism）等模式依赖集群内GPU芯片之间频繁的数据交互。然而，互连速率的提升已严重滞后于算力的快速演进，导致显著的通信开销，这直接限制了集群有效算力随GPU数量的线性增

面向大规模智算集群场景光互连技术白皮书(2025)

长，已成为制约集群规模扩展和性能提升的关键瓶颈，如下图所示。在此背景下，仅仅依靠IB（InfiniBand）或RoCE（RDMAoverConvergedEthernet）等传统网络技术来满足模型性能指标已十分困难，需构建具备高带宽、低延迟特征的GPU卡间互连技术体系，以扩大节点规模，大幅降低通信时间占比，最终实现集群算效的显著提升。

图1-2算力随

您可能关注的文档

文档评论（0）

哈哈 + 关注: 实名认证

文档贡献者

嗨，朋友，我都会用最可爱的语言和最实用的内容，帮助你更好地理解和应对职场中的各种挑战！

咨询Ta 进入空间

1亿VIP精品文档

更多 >

面向大规模智算集群场景光互连技术白皮书（2025年）-.docxVIP