cp2k 4.1 5.x-development 最新多进程多线程(MPI+OPENMP)并行版超详细安装教程极致优化加速版(20170713).pdfVIP

下载本文档

118
0
约1.35万字
约 22页
2019-03-28 发布于广东
举报
版权申诉

cp2k 4.1 5.x-development 最新多进程多线程(MPI+OPENMP)并行版超详细安装教程极致优化加速版(20170713).pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

CP2K 4.1-release 最新5.x-dev 多进程多线程(MPI+OPENMP) (host.psmp 版 host.popt 版)超详细安装教程极致优化加速版制作者：甄江苏（湘潭大学材料科学与工程学院）制作时间：2017.07.13 测试版本：Development r17978 cp2k 最新 5.x-development 版本包含了很多新功能的加入以及对之前版本大量的优化 ( 比如速度优化)和错误修正(比如ADMM 加速部分的ADMM_PURIFICATION_METHOD 选项的bug 修复等等)，建议大家安装最新版cp2k。如果编译4.1-release 版本，建议编译多进程单线程(host.popt)版本，如果编译最新5.x- development 开发版本，建议编译成多进程多线程(host.psmp)版本。据我在28 核的至强E5-2690@v4(单机120G DDR4 内存)上测试，采用14 核2 线程跑 AIMD(第一性原理分子动力学)时此教程的综合优化加速(相比用以前的教程和 intel2015 编译器套件编译去年的5.x-dev 版本cp2k 得到的程序的计算结果，下同)超过 12% ！！！跑杂化泛函HSE06 单点能计算时(12*12*12 A^3 for 135 atoms) ，单电子步迭代由以前的8000 多秒每步变为现在的4000 多秒每步，加速非常大！！！下面的测试说明都是用AIMD 测试的，没测试其他计算。测试发现用2 个线程时，对于28 核的机器来说用14 个核心(不能超过14 个核心哇，因为14*2=28)加速效果最佳，当使用7 个核心(7*2=14，理论应该跟14 核单线程时差不多) 时，计算速度比14 核单线程要慢不少。当我在24 核的至强E5-2690@v3(单机64G DDR4 内存) 上测试时，发现不管用多少核心，当线程数大于1 时，计算速度都没有相同核数下线程数为 1 时快(不知道其他计算会如何) 。所以多线程有没有加速效果，跟机器配置有关的，具体请自行测试。但是相比以前的教程，采用单线程还是比以前的教程编译出来的程序快的。最新development 版cp2k 的k 点计算会比去年的development 版以及4.1-release 版计算的慢了约13%，我猜可能是对之前的k 点计算进行了修复，加了很多修正。 cp2k 4.1-release 版本目前在我这里只能编译出并使用多进程单线程版本(host.popt 版)，用多线程版本时，线程数只能为1，不然程序会崩溃。当然此教程编译出的4.1 单线程版本相比以前教程编译出来的4.1 版本也会有加速效果，至少在我这里是如此。还需要注意的是，程序在运行过程中，有部分计算可能是用的多线程，而有部分计算可能只用了单线程，比如我使用PBEsol+D3C9 校正方式来进行CELL_OPT 计算时，在SCF 迭代时是用多线程加速的，但是每次迭代完成后到下次迭代之前的部分我测试的结果是程序此时用的是单线程跑的(这里是D3C9 校正花了很多时间，且这里程序用的是单线程跑的 D3C9 校正)，也就是如果我开了14 核2 线程的的话，中间部分只用了CPU 一半的资源，计算速度变慢。当然如果这部分时间消耗本来就非常少，那倒是对整体加速影响不大(如果是只开D3 校正的话，这部分时间用的比 D3C9 要小不少)，但是时间消耗比较大的话，那应该没有全程使用单线程效果好。总的来说，多线程的加速效果跟计算机配置、计算体系大小、计算的性质以及计算方法都有关系，如果你不知道多线程会不会有加速效果，建议直接使用单线程(比如直接将线程数设置为1，教程后面会讲到)进行计算，综合效果应该不错！！注意，此版本安装教程用的是 intel2017 update4 编译器套件，用 intel2017 update1~ update3 套件会有问题(貌似是MKL 问题)，会导致编译出来的cp2k 计算时能量是错误的。据我测试，用 intel2015~intel2016 的所