- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
并行粒子模拟程序 粒子模拟 粒子在空面中运动,而电场和电荷电流密度等物理量分配在网格点上。一般的计算步骤如下:首先根据粒子所在的具体位置求得其对周围网格点的电荷贡献,当所有粒子的贡献相加后即得到网格的电荷密度和电流密度,然后求解Maxwell方程即得网格点上的电磁场,再通过插值得到离子和电子处的电磁场,粒子在Lorentz力的作用下运动。不断循环以上过程,即可求解物理问题。 粒子模拟的并行化 (6) 电磁场处理:将区域上下边界处网格点上的电磁场分别传送给上面和下面区域的交界网格上。 5. 小结 我们用MPI对程序实现了并行化并运行在cluster上,最多CPU数为16个,取得了不错的并行效率和并行加速比。 1.物理问题规模一定时,并行效率随着计算节点数目的增多而降低。 2.计算节点数一定时,增加物理问题规模可提高并行效率。 3.在束流不稳定的线性增长阶段,数值模拟和理论符合得很好。 * * 实现粒子模拟的并行化主要有两种常用的设计思想,第一种是将粒子数均匀的分配到各个CPU上,而将与网格有关的量存储到所有的CPU上。另一种并行方法是将整个计算区域划分成几个区域,初始时尽量让每个区域中的粒子数相同,与每个区域有关的电磁场的量和粒子的量存储在同一个CPU上。 第一种算法适合在节点少但单节点性能较高的并行环境,第二种则适合在具有一定数量CPU的并行计算。根据目前我们具有的并行环境(16台100 以太网连接的Pentium III 1.6GHz组建的cluster),采用了第二种算法设计并行程序。 在作并行计算时,将整个计算空间划分为如图(图中以4个为例)所示数个平行的区域,这样把不同区域的场和粒子分配到不同的处理器上。当粒子经过场加速后由某一个区域进入到另外一个区域时,粒子将相应地转交给另一区域的处理器处理。 并行处理的网格和粒子分区示意图 图 2 PIC粒子模拟程序算法结构图 除将粒子速度位置等数据进行初始化外,由推动粒子,粒子管理、分配电流、电流管理、场的求解、场的管理等六个部分组成,具体描述如下: (1) 推动粒子:每个计算节点同时推动自己区域内的粒子,由于粒子的电磁场是通过插值网格点处的电磁场得到的,所以不同计算节点交界处粒子需要用到相邻计算节点公共网格点的电磁场。 (2) 粒子管理:部分粒子经过场加速后由某一个区域进入到另外一个区域时,粒子将相应地转交给另一区域的处理器处理。 (3) 分配电流:粒子电流被分配到相应区域的网格点上。 (4)电流管理:由于在某个区域中,在上一步中只能将本区域中的粒子电流分配到网格点上,因此边界附近网格点处得到的电流是不全面的,需要将上面或下面区域公共网格上的电流和它叠加得到全面的电流。 (5)计算电磁场:求解每个计算节点内部格点上的Maxwell方程,得到内部网格点上的电磁场。 性能分析 我们的微机机群由16个有Intel Pentium III 1.6 GHz CPU和128Mbyte内存的微机通过100Mb/s的以太网连接而成,操作系统为在Redhat Linux版本7.2,Fortran编译器为pgf77,并行化程序通过MPICH实现。 我们分别在不同数目的计算节点上运行此并行程序,测量了它的加速比(S= )和并行效率(E= ) 我们从两个方面对二维并行粒子模拟程序进行了性能分析:一是对某一特定物理问题用不同数目计算节点运算,测量其加速比和并行效率;二是对不同的物理问题用相同的计算节点运算测量其加速比和并行效率。 表中是固定网格数128×64,粒子数73728时用不同的计算节点运算时测得的加速比和并行效率,程序的运行步数是2500。 59% 9.37 163.61 16 89% 7.13 214.85 8 96% 3.85 398.09 4 102% 2.03 756.33 2 ------ 1.00 1532.29 1 并行效率 加速比 运行时间(秒) 计算节点数 表 用不同数目的计算节点计算同一问题时的加速比和并行效率 96% 7.69 408.22 128*128 89% 7.13 214.85 128*64 87% 6.93 112.83 64*64 74% 5.92 64.62 64*32 65% 5.20 38.15 32*32 并行效
文档评论(0)