PowerLeader宝德PRA100 PoDc G2 集群基础单元故障处理手册.docx

PowerLeader宝德PRA100 PoDc G2 集群基础单元故障处理手册.docx

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

宝德自强·AI集群基础单元

PRA100PoDcG2

故障处理 V4.0

发布日期:2024/02/08

宝德计算机系统

宝德计算机系统股份有限公司

前言PRA100PoDcG2集群基础单元

前言

故障处理

文档版本04(2024-02-08)iii

前言

概述

本手册介绍PRA100PoDcG2集群基础单元整机柜服务器常见的故障现象及其对应的处理指导。

读者对象

本手册主要适用于以下人员

●技术支持工程师

●维护工程师

符号约定

在本文中可能出现下列标志,它们所代表的含义如下。

符号

说明

表示如不避免则将会导致死亡或严重伤害的具有高等级风险的危害。

表示如不避免则可能导致死亡或严重伤害的具有中等级风险的危害。

表示如不避免则可能导致轻微或中度伤害的具有低等级风险的危害。

用于传递设备或环境安全警示信息。如不避免则可能会导致设备损坏、数据丢失、设备性能降低或其它不可预知的结果。

“须知”不涉及人身伤害。

对正文中重点信息的补充说明。

“说明”不是安全警示信息,不涉及人身、设备及环境伤害信息。

目录PRA100PoDcG2

目录

故障处理

目录

前言 iii

1管制信息 1

1.1安全 1

1.2维保与保修 4

2处理流程 5

3处理准备 6

4收集信息 9

4.1收集基本信息 9

4.2收集操作系统日志信息 10

4.3收集硬件日志信息 10

5常见故障处理 12

5.1诊断原则 12

5.2根据指示灯定位故障 13

5.2.1机柜管理模块指示灯 13

5.2.2电源模块指示灯 14

5.2.3计算节点指示灯 15

5.3机柜故障处理 16

5.3.1管理模块BMC核心温度过高告警 16

5.3.2电源模块输出过流告警 17

5.3.3电源输入丢失告警 18

5.3.4电源单路输入丢失告警 19

5.3.5电源模块严重不均流告警 19

5.3.6FusionDirector脱管 20

5.4计算节点故障处理 20

5.4.1主板板内电源异常告警 20

5.4.2系统12V电压过高告警 21

5.4.3缓起电路电压过低告警 21

5.4.4系统异常下电告警 21

5.4.5CPUMCE/AER错误告警 22

5.4.6单板CPLD自检状态失败告警 23

5.4.7同步NTP服务器时间失败告警 23

文档版本04(2024-02-08)v

目录PRA100PoDcG2

目录

故障处理

文档版本04(2024-02-08)vi

5.4.8证书过期或即将过期告警 24

5.4.9风扇转速偏差大告警 24

5.4.10风扇冗余失效告警 25

5.4.11风扇背板信号线缆连接异常告警 25

5.4.12风扇背板CPLD自检状态失败告警 26

5.4.13PCIe卡不在位告警 26

5.4.14PCIe卡高温告警 27

5.4.15PCIe卡UCE告警 28

5.4.16PCIe卡传输带宽降低 28

5.4.17xPU信息获取失败 29

5.4.18xPUECC报错 30

5.4.19网卡光模块功率异常告警 31

5.4.20内存配置错误告警 32

5.4.21内存初始化错误 33

5.4.22内存MCE错误 34

5.5交换节点故障处理 34

5.5.1交换节点端口down 34

6应急处理 36

6.1漏液问题 36

6.1.1iRM上报光电传感器(Manifold)漏液告警 36

6.1.2iBMC上报服务器节点漏液告警 37

6.1.3iRM上报液冷门漏液告警 37

6.1.4节点下架时,快接头漏液 39

6.2高温问题 39

6.2.1全液冷机柜所在机房高温告警 39

6.2.2节点CPU或液冷散热部件高温

文档评论(0)

果青 + 关注
实名认证
内容提供者

版权、免责和服务声明 版权 本站所有用户指南、操作手册和使用说明书版权归原产品或品牌生产厂商所有。 免责 本站只提供用户浏览或下载产品指南、手册和说明书的一个可替代的途径,本站不能确保浏览或下载的指南、手册或说明书的完整性和正确性,由此带来的其他影响本站概不负责。 建议 为确保指南、手册或说明书的正确性,本站建议用户从产品的原厂商网站下载电子版本。

版权声明书
用户编号:5211143200000004

1亿VIP精品文档

相关文档