中科曙光HPC培训教程汇总:D16-集群调试—OPA网络配置排错.pptxVIP

  • 193
  • 0
  • 约3.83千字
  • 约 50页
  • 2021-02-26 发布于安徽
  • 举报

中科曙光HPC培训教程汇总:D16-集群调试—OPA网络配置排错.pptx

OPA网络配置及排错 HPC产品事业部;目录;;;;目录;操作系统支持 Redhat/CentOS 6.7 7.2 7.3 SUSE 12 sp1/sp2 软件下载 IFS: 带管理功能,安装在管理 节点,一个子网内必须在 两个节点上安装 Basic 不带管理功能,安装在计算 节点 /zh-cn/download/26457/-omni-path-fabric-omni-path-hfi-;安装前准备 确保以下rpm包已安装;OPA软件安装 TUI模式 tar xf IntelOPA-Basic.RHEL72-x86_.0.81.tgz cd IntelOPA-Basic.RHEL72-x86_.0.81 ./INSTALL ;;OPA软件安装 CLI模式(批量安装推荐) ./INSTALL –a 采用默认选项安装 安装完成后重启系统 注意:确保集群内有两个节点安装了IFS版OPA软件,并开启了opafm服 务。 opafm状态 systemctl status opafm 开启opafm服务 systemctl start opafm 设置开机启动 systemctl enable opafm ;OPA软件升级 ./INSTALL –U 无法正常升级时,先卸载旧版驱动,然后再安装 ./INSTALL –u ./INSTALL -a;Opafm实现子网管理功能,与Infiniband网络中的opensmd服务类似。 在一个opafm网络内要至少开启一个opafm服务。 可以开启多个opafm,只有一个处于active状态,其他处于standby状态 使用opatop或opareport查看opafm的状态 默认GUID小的为master,可以通过修改/etc/opa-fm/opafm.xml中Priority设置优先级(数值越大,优先级越高,最大15) ;IPoFabric (IPoIB) OPA的IPoIB与Infiniband配置方式相同,修改 /etc/sysconfig/network-scripts/ifcfg-ib0 内容如下 DEVICE=ib0 TYPE=Infiniband BOOTPROTO=static ONBOOT=yes NM_CONTROLLED=no IPADDR= NETMASK=;IPoFabric(IPoIB)模式 connected datagram(默认) 查看IPoIB模式 cat /sys/class/net/ib0/mode 查看MTU cat /sys/class/net/ib0/mtu 设置IPoIB为connected模式 echo connected /sys/class/net/ib0/mode 或修改/etc/sysconfig/network-scripts/ifcfg-ib0,增加 CONNECTED_MODE=yes MTU=65520 设置IPoIB为datagram模式 echo datagram /sys/class/net/ib0/mode;目录;OPA软件安装时可以选择安装针对于OPA优化的MPI,安装在/usr/mpi目录下 ;;Clussoft中MPI对OPA支持情况 Clussoft-2.2.1 Intelmpi 5.1.3 支持 Openmpi 2.0.1 支持 Openmpi 1.8.7 不支持 mvapich 2.2b 暂不支持 ;编译 ./configure –-with-psm2 (可不加,openmpi会自动搜索) 检查是否有psm2接口 ./ompi_info (mpicc同目录下) ;运行 使用psm2(推荐) mpirun –mca pml cm –mca mtl psm2 … 使用verbs mpirun –mca btl sm,openib,self –mca mtl ^psm,psm2 … ;编译 ./configure –with-device=ch3:psm 检查是否使用psm2 运行 运行时不需要加入运行参数 ;运行 使用psm2(推荐) mpirun –PSM2 … mpirun –genv I_MPI_FABRICS shm:tmi … 使用verbs mpirun –genv I_MPI_FABRICS shm:dapl … ;目录;o

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档