电子行业点评报告：算力芯片看点系列，GPGPU与ASIC之争.docx

下载文档

0
0
约1.01万字
约 13页
2025-03-20 发布于北京
举报
版权申诉
保障服务

电子行业点评报告：算力芯片看点系列，GPGPU与ASIC之争.docx

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

内容目录

TOC\o1-2\h\z\uGPGPU与ASIC性能对比一览 4

算力：精度与能效的差异化竞争 4

存力：显存性能与算力密度的权衡角逐 4

互连：NVLink主导下的技术挑战与突破 6

为什么大厂纷纷开始自研AI芯片？——从自研成本测算说起 6

大厂自研AI芯片谁能代工？ 8

博通：AI互连技术引领者与半导体生态巨头 8

Marvell：数据中心芯片定制化赛道破局者 9

AIchip：3DIC与先进制程ASIC设计的先锋 10

GUC：先进制程与封装覆盖的ASIC领导厂商 11

中兴通讯：引领算力基础设施创新的国内大厂 11

翱捷科技：多方优势的平台型芯片企业 12

芯原股份：平台化一站式芯片定制 13

风险提示 14

图表目录

图1：主流AI芯片算力指标梳理 4

图2：主流AI芯片存力指标梳理 5

图3：主流AI芯片互连指标梳理 6

图4：主流AI芯片公司研发人员数量情况 7

图5：主流科技公司公开宣布的万卡集群情况 7

图6：博通集成光学连接技术的ASIC芯片 8

图7：Marvell芯片制造各流程基础设施建设 9

图8：AIchip3DICASIC芯片设计结构 10

图9：创意电子互连技术发展 11

图10：创意电子存储技术发展 11

图11：中兴通讯产品布局 12

图12：翱捷科技ASR582X系列芯片图解 13

图13：芯原视频后处理IPPC820 14

GPGPU与ASIC性能对比一览

算力：精度与能效的差异化竞争

1）从精度范围来看，ASIC较少涉及高精度浮点数数据，主要聚焦于低精度领域，这与其主要应用于大模型训练的定位相符。大模型训练过程中，低精度数据类型（如INT8、FP16等）足以满足大部分计算需求，并且能够在一定程度上减少计算量和存储需求，提高训练效率。2）就低精度部分的算力性能而言，大厂自研的ASIC在一些指标上也难以与同时期的GPGPU相媲美。以英伟达GB200为例，FP16达5000，远超同时期ASIC数值。3）在功耗和能效比方面，多数ASIC拥有相对而言更可观的功耗控制与能效比。通常，ASIC由于其定制化的设计，专为特定任务（如大模型训练）优化，在

执行特定任务时可能具有相对较低的功耗。GPGPU在执行相同任务时，由于其架构需要兼顾多种计算场景，功耗往往较高。例如，微软的Maia100能效比高达1.60，而同时期的英伟达H200为1.41。但也有例外，如英伟达A100的能效比（0.78）高于同期谷歌TPUv4i（0.39），呈现出兼顾普适性与高效性的特点。

图1：主流AI芯片算力指标梳理

数据来源：各公司官网，A5图王，量子位，新智元，AI时代前沿，IT之家，SemiAnalysis，半导体行业观察，智东西，芯智讯，机器之心，芯榜，科闻社，快科技，半导体产业纵横，电厂，电子工程专辑，

存力：显存性能与算力密度的权衡角逐

1）从显存性能来看，自研ASIC在显存带宽和容量上与GPGPU仍有较大差距。

GB200依靠HBM3e技术拥有高达16384GB/s的带宽，这使其在处理大规模数据时能更高效地运行复杂任务。2）从算力密度（算力/显存容量）来看，GPGPU单位显存算力相对有限，ASIC则以高算力密度在特定任务凸显优势。在实际应用中，较高的算力密

度意味着在相同的显存资源下，芯片能够完成更多的计算任务。以谷歌TPUv6e为例，

FP16算力1852，显存容量32GB，算力密度约57.88，展现出显存利用效率高、存力与算力协同性好的特征。3）从算术强度（算力/显存带宽）来看，早期ASIC弱于同时期GPU，但技术迭代速度快，22年后实现反超。至24年，ASIC芯片如MetaMTIAv2算术强度达885FLOPs/Byte，是同期GB200算术强度的2.8倍。4）LPU通过超高内存带宽突破性化解传统GPU的内存瓶颈。LPU采用230MBSRAM集成设计，提供80TB/s的峰值内存带宽。这种存力使每个计算单元可即时获取连续token序列，消除传统架构中因频繁访问外部显存产生的时钟周期损耗。该设计架构通过存力创造性释放算力潜能，

为大模型推理提供数据供给保障，完成低算术强度任务性能创造性突破。

图2：主流AI芯片存力指标梳理

数据来源：各公司官网，A5图王，量子位，新智元，AI时代前沿，IT之家，SemiAnalysis，半导体行业观察，智东西，芯智