一种超大规模MPI栅栏同步硬件卸载方法.docVIP

下载本文档

8
0
约9.89千字
约 18页
2018-08-13 发布于福建
举报
版权申诉

一种超大规模MPI栅栏同步硬件卸载方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种超大规模MPI栅栏同步硬件卸载方法

一种超大规模MPI栅栏同步的硬件卸载方法　　摘要：在大规模并行计算机中，聚合通信的性能一直是全系统的性能瓶颈.本文提出了一种在超大规模并行计算机系统中采用的基于NIC的硬件卸载MPI栅栏同步的方法.方法基于改进的Dissemination栅栏同步算法，由MPI驱动程序生成栅栏同步的算法框架，实际的通信操作由NIC硬件自动完成，针对算法设计了硬件易于实现的基于描述符的软硬件接口和硬件执行算法，大大提高了栅栏同步的效率.通过与软件实现的算法性能比较，本文方法的通信延迟比现有方法平均提高了40%. 　　关键词：栅栏同步；硬件卸载；描述符　　中图分类号：TP302.1 文献标识码：A 　　NIC Based Hardware Offload of MPI Barrier 　　for Exascale Super Computer 　　WANG Shao-gang，XU Wei-xia，WU Dan，PANG Zheng-bin，XU Jin-bo 　　（College of Computer， National Univ of Defense Technology， Changsha， Hunan 410073， China）　　Abstract： Barrier synchronization is an important communication pattern for high performance super computers. This paper proposed a new NIC-based barrier communication offload method. The new method improved the traditional dissemination barrier algorithm to support parallel barrier message sending and receiving， which greatly reduced the communication delay. Based on the new barrier algorithm， this paper proposed new descriptor based hardware-software interface and the hardware implementation. The performance was greatly improved， compared with the traditional barrier implementation. 　　Key words： barrier communication；hardware offload； communication descriptor 　　高性能计算机系统发展迅速，2012年11月份发布的Top500高性能计算机排行榜中，系统峰值性能已经达到10 P （Petaflops），处理核数达到数十万的规模.据此发展趋势，国际上高性能计算机计算水平将在2013年左右达到100 P量级，在2016年达到1 E （Exaflops）量级[1-2].如此大规模的系统需支持数百万个节点的高效通信，节点间的通信机制已经成为制约系统性能乃至决定系统成败的关键因素. 　　聚合通信在MPI程序中占据相当大的比例，对系统性能的影响很大，据已有统计，在大量科学计算和工程应用程序中，聚合通信的通信时间占MPI通信时间的80%，其执行时间占总执行时间的60%[2].因而，对聚合通信进行硬件加速很有必要.事实上，目前的一些大系统上，节点控制器或NIC芯片有很大的一部分功能用来实现MPI卸载功能.因此，基于NIC芯片的聚合通信卸载是提高MPI聚合通信效率的重要途径[3-5]. 　　基于Exascale级计算机系统的通信需求，本文提出了一种基于栅栏同步描述符的硬件卸载方案，将原来由软件实现的栅栏同步下放到硬件中自动执行，实现了计算与通信的并行，可有效地支持上10万个节点间的栅栏通信. 　　本文的主要贡献包括：1）提出了易于硬件实现的大规模栅栏同步算法，算法针对经典的Dissemination算法进行了改进[6-7]，提出了多路并行的改进算法，更适合在目前高带宽和延迟的网络中采用. 　　2）针对栅栏同步算法的特性，设计了基于描述符的软硬件接口.描述符描述了硬件执行算法时的执行过程，由软件负责生成，而具体的通信则交给NIC硬件自动执行，实现了聚合通信与主机计算的并行，可有效支持MPI3.0[8]的非阻塞通信特性.3）详细测试了基于改进Dissemination算法的硬件卸载方案，测试表明，本文方案具有明显的性能优势，在128个节点