2026《关于GPU间通信技术的研究文献综述》1300字.docxVIP

下载本文档

0
0
约3.79千字
约 5页
2026-01-19 发布于湖北
举报
版权申诉

2026《关于GPU间通信技术的研究文献综述》1300字.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关于GPU间通信技术的研究文献综述

深度学习模型通常都是使用GPU进行训练的，因为GPU具有比CPU更高的计算能力，而目前学术界和业界的主流深度学习模型通常都是由更多的参数量结合更大规模的训练数据来训练得到。这些模型由于训练和部署周期过长，无法满足实际需求，为了加快节奏，需要借助更多的GPU来进行并行训练，这就涉及到GPU之间的通信技术了REF_Re\r\h[11]。

1.1GPU间直接通信

GPU直接通信(GPUDirect)技术使得多个GPU、存储设备都可以直接读写主机和设备内存，减少了很多的没有必要的CPU开销和内存拷贝，提高了通信速度，进而提升了性能REF_Re\r\h[12]。对于多设备训练来说，GPUDirect提供的最为重要的功能便是GPUDirectP2P(peer-to-peer)技术。GPUDirectP2P提出之前，在同一个PCIe节点内的两个GPU，如果其中一个GPU想要将计算结果或者数据传播到另一个GPU中，需要先将数据拷贝到CPU内存，CPU再将数据传送到另一个GPU之中，由此可以看出数据传输带宽会受到CPU的限制，而且额外的CPU流程控制时间开销和内存拷贝也使得GPU间总的通信代价很大。如图2.3所示GPUDirectP2P使得同一PCIe总线上的GPU之间可以直接进行内存访问和拷贝。

图2.3GPUDirectP2P通信技术

1.2NVLink

在GPUDirectP2P技术中，GPU之间通过PCIe总线相连，而目前服务器中使用较多的是PCIe3.0*16版的总线，最高单向带宽只有16GB/s，满足不了日益整张的模型参数数量，会逐渐成为多设备训练系统的瓶颈。为了提高GPU之间的通信带宽，充分发挥GPU的性能，NVIDIA近年来发布了一种新的架构——NVLinkREF_Re\r\h[13]。

NVLink1.0是与P100GPU一起发布的，一块GPU上可以集成4条NVLink总线，这样可以使得整个芯片的带宽的单向带宽达到80GB/s，相当于PCIe带宽的5倍。

NVLink2.0是与TeslaV100GPU一起发布的，速度相比1.0提高了25%，同时一块GPU上可以集成6条NVLink总线，总的单向带宽可以达到150GB/s，相当于PCIe带宽的10倍。

1.3GPU拓扑结构

服务器上GPU拓扑结构对多设备训练的速度影响是很大的REF_Re\r\h[14]，在编写多设备训练

图2.4不同总线的有效带宽(GB/s)

代码时要注意尽量避开那些带宽比较小的GPU互联通路，不同GPU互联通路的有效带宽如图2.4所示。

图2.5双CPU四GPU拓扑连接图

不同机器上的GPU拓扑结构的不同会较大程度上影响多设备训练系统性能的优越。比如图2.5和图2.6列出了目前存在的两种服务器的GPU拓扑结构，前者GPU间通信会通过PCIe总线和QPI总线，带宽不会超过10GB/s，后者则经过NVSwitch支持任意两个GPU之间通过NVLink交换数据，带宽可以达到前者的十几倍。

图2.6全NVLink拓扑连接图

参考文献

DenilM,ShakibiB,DinhL,etal.PredictingParametersinDeepLearning[J].UniversityofBritishColumbia,2013.

ZhangZ,YinL,YPeng,etal.AQuickSurveyonLargeScaleDistributedDeepLearningSystems[C]//2018IEEE24thInternationalConferenceonParallelandDistributedSystems(ICPADS).IEEE,2018.

朱泓睿,元国军,姚成吉,谭光明,王展,户忠哲,张晓扬,安学军.分布式深度学习训练网络综述[J].计算机研究与发展,2021,58(01):98-115.

PangB,NijkampE,WuYN.DeepLearningWithTensorFlow:AReview[J].JournalofEducationalandBehavioralStatistics,2020,45.

BarbourAD,ResnickSI.AdventuresinStochasticProcesses[J].JournaloftheAmericanStatistic

您可能关注的文档

文档评论（0）

02127123006 + 关注: 实名认证

文档贡献者

关注原创力文档

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2026《关于GPU间通信技术的研究文献综述》1300字.docxVIP