- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
关于GPU间通信技术的研究文献综述
深度学习模型通常都是使用GPU进行训练的,因为GPU具有比CPU更高的计算能力,而目前学术界和业界的主流深度学习模型通常都是由更多的参数量结合更大规模的训练数据来训练得到。这些模型由于训练和部署周期过长,无法满足实际需求,为了加快节奏,需要借助更多的GPU来进行并行训练,这就涉及到GPU之间的通信技术了REF_Re\r\h[11]。
1.1GPU间直接通信
GPU直接通信(GPUDirect)技术使得多个GPU、存储设备都可以直接读写主机和设备内存,减少了很多的没有必要的CPU开销和内存拷贝,提高了通信速度,进而提升了性能REF_Re\r\h[12]。对于多设备训练来说,GPUDirect提供的最为重要的功能便是GPUDirectP2P(peer-to-peer)技术。GPUDirectP2P提出之前,在同一个PCIe节点内的两个GPU,如果其中一个GPU想要将计算结果或者数据传播到另一个GPU中,需要先将数据拷贝到CPU内存,CPU再将数据传送到另一个GPU之中,由此可以看出数据传输带宽会受到CPU的限制,而且额外的CPU流程控制时间开销和内存拷贝也使得GPU间总的通信代价很大。如图2.3所示GPUDirectP2P使得同一PCIe总线上的GPU之间可以直接进行内存访问和拷贝。
图2.3GPUDirectP2P通信技术
1.2NVLink
在GPUDirectP2P技术中,GPU之间通过PCIe总线相连,而目前服务器中使用较多的是PCIe3.0*16版的总线,最高单向带宽只有16GB/s,满足不了日益整张的模型参数数量,会逐渐成为多设备训练系统的瓶颈。为了提高GPU之间的通信带宽,充分发挥GPU的性能,NVIDIA近年来发布了一种新的架构——NVLinkREF_Re\r\h[13]。
NVLink1.0是与P100GPU一起发布的,一块GPU上可以集成4条NVLink总线,这样可以使得整个芯片的带宽的单向带宽达到80GB/s,相当于PCIe带宽的5倍。
NVLink2.0是与TeslaV100GPU一起发布的,速度相比1.0提高了25%,同时一块GPU上可以集成6条NVLink总线,总的单向带宽可以达到150GB/s,相当于PCIe带宽的10倍。
1.3GPU拓扑结构
服务器上GPU拓扑结构对多设备训练的速度影响是很大的REF_Re\r\h[14],在编写多设备训练
图2.4不同总线的有效带宽(GB/s)
代码时要注意尽量避开那些带宽比较小的GPU互联通路,不同GPU互联通路的有效带宽如图2.4所示。
图2.5双CPU四GPU拓扑连接图
不同机器上的GPU拓扑结构的不同会较大程度上影响多设备训练系统性能的优越。比如图2.5和图2.6列出了目前存在的两种服务器的GPU拓扑结构,前者GPU间通信会通过PCIe总线和QPI总线,带宽不会超过10GB/s,后者则经过NVSwitch支持任意两个GPU之间通过NVLink交换数据,带宽可以达到前者的十几倍。
图2.6全NVLink拓扑连接图
参考文献
DenilM,ShakibiB,DinhL,etal.PredictingParametersinDeepLearning[J].UniversityofBritishColumbia,2013.
ZhangZ,YinL,YPeng,etal.AQuickSurveyonLargeScaleDistributedDeepLearningSystems[C]//2018IEEE24thInternationalConferenceonParallelandDistributedSystems(ICPADS).IEEE,2018.
朱泓睿,元国军,姚成吉,谭光明,王展,户忠哲,张晓扬,安学军.分布式深度学习训练网络综述[J].计算机研究与发展,2021,58(01):98-115.
PangB,NijkampE,WuYN.DeepLearningWithTensorFlow:AReview[J].JournalofEducationalandBehavioralStatistics,2020,45.
BarbourAD,ResnickSI.AdventuresinStochasticProcesses[J].JournaloftheAmericanStatistic
您可能关注的文档
- 2026《“今日头条”算法推荐产生的价值问题分析》12000字.doc
- 2026《“全面二孩”政策下中国人口总量与结构预测分析案例》3700字.docx
- 2026《“养老服务助手”微信小程序的设计与实现》7600字.docx
- 2026《1,6-己二醇生产的主要设备计算过程案例》3200字.docx
- 2026《12kV真空灭弧室内部电场分布影响因素分析综述》3400字.docx
- 2026《35kV变电所短路电流计算与电气设备选择分析案例》4000字.docx
- 2026《35kV变电所继电保护及防雷保护设计计算案例》4500字.docx
- 2026《35kV变电所主变压器选择与主接线设计计算过程案例》4800字.docx
- 2026《Arnold置乱算法理论基础综述》1300字.docx
- 2026《A房企ABS业务专项计划现状、动因及风险分析案例》22000字.docx
- 福建省三明市沙县区三明北附高级中学高一下学期4月期中考试政治试题(解析版)-A4.docx
- 2025届福建省福建省部分地市诊断性联考二模政治试题(原卷版)-A4.docx
- 福建省福宁古五校教学联合体高二下学期4月期中质量监测政治试题(原卷版)-A4.docx
- 2025年甘肃省平凉市庄浪县中考一模道德与法治试题-A4.docx
- 2025届福建省福建省部分地市诊断性联考二模政治试题(解析版)-A4.docx
- 2023-2024 学年第一学期高二第一次月考 试卷(2).pdf
- 2025届福建省福州市恒一高级中学等学校高三第二次学情检测政治试题(原卷版)-A4.docx
- 甘肃省定西市陇西县崇文中学联考八年级4月月考道德与法治试题(解析版)-A4.docx
- 福建省福宁古五校教学联合体高二下学期4月期中质量监测政治试题(解析版)-A4.docx
- 甘肃省镇原县城关初中2024-2025学年上学期七年级英语期末模拟测试卷(四)-A4.docx
原创力文档


文档评论(0)