IBM-HPC-系统使用.ppt

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
IBM HPC 系统的使用 周志强 zhouzq@ 内容 硬件系统介绍 CPU结构 SMP与MPP结构 常见问题 软件系统介绍 AIX操作系统 编译器 ESSL/PESSL/MASS Parallel Environment Load Leveler 常见问题 练习 影响运行性能的系统因素 程序移植练习 系统性能监视工具 CPU主要特征 64bit RISC Super-scalar 处理器 每个周期最多8条指令,平均5条指令 同时支持64位和32位运算 每个时钟周期两次乘加复合浮点运算,即每个时钟周期四次浮点运算 P690的处理器时钟为1.7GHz 32KB数据L1/64KB指令L1,1.5MB L2 per 2 CPU,32MB L3 per 2 CPU Cache Line: 128B 平衡带宽 与性能相关的主要CPU参数 Cache大小 Cache和内存时延 L1:0-1个时钟 L2:12+个时钟 L3:100个时钟 内存:300个时钟 p690系统特征 32 x 1.7GHz Power4+处理器 几乎是目前最快的OpenMP机器 128GB共享内存 512MB 全系统共享 L3 Cache 并行信息在内存/L3中传递或共享 3个I/O Drawer 42个148.8GB硬盘 12个Ultra SCSI 3接口 千兆以太网接口 可扩展或升级 p690对并行机制的支持 支持线程并行(OpenMP, pThread) 为保证性能,最多同时运行32线程 如线程存在时间不是很长,其数量也可适当超过32 支持进程并行(MPI) 为保证性能,最多同时运行32进程 支持混合并行机制(MPI+OpenMP) 为保证性能,建议线程+进程不超过32 支持其他并行机制 PVM Linda HPF …… 与性能相关的系统特征 工作文件系统应尽量采取本机直联方式 磁盘子系统性能 主要采取多路磁盘的stripping解决 也可考虑内存文件系统(系统重启动后数据全部丢失且文件系统不再存在,需重建) 常见有关系统架构的问题 在下载程序时会遇到所谓RS600版本和 SP版本 通常约定俗成地将MPI版本叫做SP版本 有时RS6000版本是串行版本 64位程序 通常64位程序指的是使用64位寻址方式,既可以使用大于2GB的内存 图形能力 p690是纯粹的计算服务器,无硬件图形处理能力 支持X-Window 内容 硬件系统介绍 CPU结构 SMP与MPP结构 常见问题 软件系统介绍 AIX操作系统 编译器 ESSL/PESSL/MASS Parallel Environment Load Leveler 常见问题 练习 影响运行性能的系统因素 程序移植练习 系统性能监视工具 操作系统AIX 5L 提供Linux相容性 提供常用Linux工具 AIX kernel 所谓32-bit kernel其实是指保证32位程序兼容性的kernel 32-bit kernel最大支持96GB内存 ulimit 对每个用户所用资源的限制 支持多种shell 编译器 C语言编译器 man xlc FORTRAN语言编译器 man xlf JAVA语言编译器和JVM AIX系统自带 编译器的不同名字 虽然名字有很多,实际上编译器分别只有一个(xlc或xlf) _r为多线程并行程序的编译命令 mpxxx为mpi程序的编译命令 mpxxx_r为混合模式的编译命令 一个例外是编译mpi程序的64位代码时要使用mpxxx_r 线程并行程序的编译和运行 xxx_r -qsmp 例:#xlf_r -qsmp mycode.f #export XLSMPOPTS=“parthds=4” #a.out -qsmp=auto 自动并行化 对循环要求相当严格,如无明显效果强烈建议不使用 -qsmp=omp 只处理OpenMP directives 部分常用编译器选项 -qnolm 不检查license manager -O3 最常用的优化级别 编译时可能会有警告 -O3 -qstrict 在保证较高性能的同时提高稳定性 -O4, -O5 酌情使用 有时编译器会提示使用-qipa,这时也可考虑使用-O4或-O5 -qarch=pwr4 -qtune=pwr4 针对power4处理器优化 如需保证二进制代码的兼容性,令其=com -bmaxdata:0–bmaxstack:032位模式下可支持的最大数据量 -q64 生成64位寻址模式程序 -q64 –bmaxdata:0x100000000 寻址空间超过2GB时 Parallel Environment:并行环境 运行命令为poe man poe

文档评论(0)

wx171113 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档