- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
BH-设备健康实时监测平台V1.0-IT设备-PTT PDF-发布版
设备健康实时监测平台
IT篇
南京碧慧电子技术有限公司
目录
1 现状分享
2 平台框架
3 平台原理
4 平台优势
5 平台益处
南京碧慧电子
现状分享
传统的设备管理方法
设备系统管理员定期到巡视
传统的设备管理方法缺陷分析
传统管理方法存在时效性差、监控设备范围和数量有限、设备宕机
后无法追查原因、占用系统资源较多的缺点;
无法对设备系统的实时监控,不能够监控网络状态(无法发现整个
网络节点、判断网络节点的在线状态、判断网络的通断、监测网络
结点的OS、IP、主机名、网络流量大小等信息);
南京碧慧电子
现状分享
监控服务器系统静态信息 (CPU、内存、硬盘、光驱、网卡、显卡、
操作系统、RAID卡、PCI附加卡等信息)和动态信息 (主板、CPU、
SCSI 模组、风扇板等设备的温度、电压、风扇转速信息以及CPU利
用率、内存利用率、硬盘I/O访问流量等系统资源信息)
无法实现对RAID阵列的管理;
被监控量发生超越门限等异常事件时,也无法获取报警信息,不方
便管理员根据告警日志分析诊断。
设备出现故障处理方法
一般是管理员到故障现场根据经验诊断故障原因,管理员不可以通
过网络或者串口访问远端设备,通过获取事件日志和传感器数据记
录来分析、确认故障原因,并通过远程操作来实现设备恢复。
南京碧慧电子
IT设备健康实时监测平台
南京碧慧电子
平台工作原理
南京碧慧电子
服务器部分指标 1/2
TEMP (温度)
Ambient Temp (环境温度)、CPU PECI tics (CPU 温度);
FAN (风扇)
Fan (风扇转速)、Power Supply Fan Fault (电源风扇故障),能够定
位到每个风扇;
CPU、VRM
CPU Status (CPU 状态)、VRM Status (CPU 供电模块)、CPU
PECI tics (CPU 温度),能够定位到每颗CPU;
RAID
RAID Error (阵列卡错误);
LOG (日志)
SEL Fullness (事件日志大小);
NMI (硬件错误)
NMI State;
LINK (QPI 端口或QPI 可宽展电缆)
服务器级联端口;
南京碧慧电子
服务器部分指标2/2
PCI (PCI 适配器)
PCI System Err;
MEM (内存)
Mem Overtemp,能够定位到每根内存;
CNFG (配置错误);
DASD (硬盘驱动器错误)
Hdwr version err ,能够定位到每块硬盘;
BOARD(I/O 故障) ;I/O Channel Chk;
PS
文档评论(0)