cp2k 4.1 5.x-development 最新多进程多线程(MPI+OPENMP)并行版超详细安装教程极致优化加速版(20170713).pdfVIP

cp2k 4.1 5.x-development 最新多进程多线程(MPI+OPENMP)并行版超详细安装教程极致优化加速版(20170713).pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
CP2K 4.1-release 最新5.x-dev 多进程多线程(MPI+OPENMP) (host.psmp 版 host.popt 版)超详细安装教程极致优化加速版 制作者:甄江苏 (湘潭大学材料科学与工程学院) 制作时间:2017.07.13 测试版本:Development r17978 cp2k 最新 5.x-development 版本包含了很多新功能的加入以及对之前版本大量的优化 ( 比如速度优化)和错误修正(比如ADMM 加速部分的ADMM_PURIFICATION_METHOD 选项的bug 修复等等),建议大家安装最新版cp2k。 如果编译4.1-release 版本,建议编译多进程单线程(host.popt)版本,如果编译最新5.x- development 开发版本,建议编译成多进程多线程(host.psmp)版本。 据我在28 核的至强E5-2690@v4(单机120G DDR4 内存)上测试,采用14 核2 线程跑 AIMD(第一性原理分子动力学)时此教程的综合优化加速(相比用以前的教程和 intel2015 编 译器套件编译去年的5.x-dev 版本cp2k 得到的程序的计算结果,下同)超过 12% !!!跑杂 化泛函HSE06 单点能计算时(12*12*12 A^3 for 135 atoms) ,单电子步迭代由以前的8000 多 秒每步变为现在的4000 多秒每步,加速非常大!!! 下面的测试说明都是用AIMD 测试的,没测试其他计算。 测试发现用2 个线程时,对于28 核的机器来说用14 个核心(不能超过14 个核心哇,因 为14*2=28)加速效果最佳,当使用7 个核心(7*2=14,理论应该跟14 核单线程时差不多) 时, 计算速度比14 核单线程要慢不少。当我在24 核的至强E5-2690@v3(单机64G DDR4 内存) 上测试时,发现不管用多少核心,当线程数大于1 时,计算速度都没有相同核数下线程数为 1 时快(不知道其他计算会如何) 。所以多线程有没有加速效果,跟机器配置有关的,具体请 自行测试。但是相比以前的教程,采用单线程还是比以前的教程编译出来的程序快的。 最新development 版cp2k 的k 点计算会比去年的development 版以及4.1-release 版计 算的慢了约13%,我猜可能是对之前的k 点计算进行了修复,加了很多修正。 cp2k 4.1-release 版本目前在我这里只能编译出并使用多进程单线程版本(host.popt 版), 用多线程版本时,线程数只能为1,不然程序会崩溃。当然此教程编译出的4.1 单线程版本 相比以前教程编译出来的4.1 版本也会有加速效果,至少在我这里是如此。 还需要注意的是,程序在运行过程中,有部分计算可能是用的多线程,而有部分计算可 能只用了单线程,比如我使用PBEsol+D3C9 校正方式来进行CELL_OPT 计算时,在SCF 迭代时是用多线程加速的,但是每次迭代完成后到下次迭代之前的部分我测试的结果是程 序此时用的是单线程跑的(这里是D3C9 校正花了很多时间,且这里程序用的是单线程跑的 D3C9 校正),也就是如果我开了14 核2 线程的的话,中间部分只用了CPU 一半的资源, 计算速度变慢。当然如果这部分时间消耗本来就非常少,那倒是对整体加速影响不大(如果 是只开D3 校正的话,这部分时间用的比 D3C9 要小不少),但是时间消耗比较大的话,那 应该没有全程使用单线程效果好。 总的来说,多线程的加速效果跟计算机配置、计算体系大小、计算的性质以及计算方法 都有关系,如果你不知道多线程会不会有加速效果,建议直接使用单线程(比如直接将线程 数设置为1,教程后面会讲到)进行计算,综合效果应该不错!! 注意,此版本安装教程用的是 intel2017 update4 编译器套件,用 intel2017 update1~ update3 套件会有问题(貌似是MKL 问题),会导致编译出来的cp2k 计算时能量是错误的。 据我测试,用 intel2015~intel2016 的所

文档评论(0)

annylsq + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档