新一代高性能并行编程陈一峰-HPCAdvisoryCouncil.PDF

下载文档 降价啦

1
0
约2.28千字
约 18页
2017-11-01 发布于天津
举报
版权申诉
保障服务

新一代高性能并行编程陈一峰-HPCAdvisoryCouncil.PDF

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

新一代高性能并行编程陈一峰-HPCAdvisoryCouncil

新一代高性能并行编程陈一峯信息与技术学院北京大学多种通讯机制的必要性 不同设备的典型多种底层通讯机制（性能）: 集群消息传递(MPI/IB verbs) 多CPU多核使用共享存储 众核使用非顺序一致的共享存储 GPU与主存间PCI使用cudaMemcpy显式数据传输. 很难强迫程序员使用一种统一的通讯: 分布式共享存储? 弱一致性? 分化全局地址空间? 统一的通讯机制, no! 不同通讯机制的统一表示, yes! 影响通讯性能的主要因素（需要源程序控制） 通讯与计算重合（发出通讯的时机） 粒度（消息长度） 因此“统一表示”必须足够丰富，允许控制: 数据位置(哪个存储器/ 内部地址) 数据与线程的关系 行优先、列优先存储，矩阵的转制、划分、分布… 集群点到点、集合通讯 多GPU同时进行PCI传输 …… Example (Transposition) From GPUs to Main Memory 并行化数组(PARRY) 存储类型元素类型维度树结构类型互引数据传输这不就是简单代数吗! 可以证明代数系统具有完全性 所有使用加法、乘法、整数除法和整数余数的下标表达式均可以表示为数组类型的偏移表达式 任何通讯模式只要使用以上整数操作，就能用Parray表示（永远不需要升级规范版本只需升级实现）。 Parallel PCI cudaMemcpy from Hmem back to Dmem 实现 Parray CUDA 子程序数组拷贝虚代码与实现 Any Array Types! 统一表示MPI 集合通讯 (点到点间通讯任意地址偏移组合) D An arbitrary array type MPI_Alltoall when being contiguous 北京大学天河湍流合作基础研究 PKUFFT （用GPU ） 规模达到日本地球模拟 MKL （不用GPU ）器记录43倍。美洲豹 FFT速度记录达到美洲豹的1.6倍。 证明GPU加速在超大系统上是实际可用的。 MKL 北京大学众核软件研究组提供以下服务湍流燃烧计算宇宙学洋流新编程接口研发软件工具培训与移植服务