BH-设备健康实时监测平台V1.0-IT设备-PTT PDF-发布版.pdf

BH-设备健康实时监测平台V1.0-IT设备-PTT PDF-发布版.pdf

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
BH-设备健康实时监测平台V1.0-IT设备-PTT PDF-发布版

设备健康实时监测平台 IT篇 南京碧慧电子技术有限公司 目录 1 现状分享 2 平台框架 3 平台原理 4 平台优势 5 平台益处 南京碧慧电子 现状分享 传统的设备管理方法 设备系统管理员定期到巡视 传统的设备管理方法缺陷分析 传统管理方法存在时效性差、监控设备范围和数量有限、设备宕机 后无法追查原因、占用系统资源较多的缺点; 无法对设备系统的实时监控,不能够监控网络状态(无法发现整个 网络节点、判断网络节点的在线状态、判断网络的通断、监测网络 结点的OS、IP、主机名、网络流量大小等信息); 南京碧慧电子 现状分享 监控服务器系统静态信息 (CPU、内存、硬盘、光驱、网卡、显卡、 操作系统、RAID卡、PCI附加卡等信息)和动态信息 (主板、CPU、 SCSI 模组、风扇板等设备的温度、电压、风扇转速信息以及CPU利 用率、内存利用率、硬盘I/O访问流量等系统资源信息) 无法实现对RAID阵列的管理; 被监控量发生超越门限等异常事件时,也无法获取报警信息,不方 便管理员根据告警日志分析诊断。 设备出现故障处理方法 一般是管理员到故障现场根据经验诊断故障原因,管理员不可以通 过网络或者串口访问远端设备,通过获取事件日志和传感器数据记 录来分析、确认故障原因,并通过远程操作来实现设备恢复。 南京碧慧电子 IT设备健康实时监测平台 南京碧慧电子 平台工作原理 南京碧慧电子 服务器部分指标 1/2  TEMP (温度)  Ambient Temp (环境温度)、CPU PECI tics (CPU 温度);  FAN (风扇)  Fan (风扇转速)、Power Supply Fan Fault (电源风扇故障),能够定 位到每个风扇;  CPU、VRM  CPU Status (CPU 状态)、VRM Status (CPU 供电模块)、CPU PECI tics (CPU 温度),能够定位到每颗CPU;  RAID  RAID Error (阵列卡错误);  LOG (日志)  SEL Fullness (事件日志大小);  NMI (硬件错误)  NMI State;  LINK (QPI 端口或QPI 可宽展电缆)  服务器级联端口; 南京碧慧电子 服务器部分指标2/2  PCI (PCI 适配器)  PCI System Err;  MEM (内存)  Mem Overtemp,能够定位到每根内存;  CNFG (配置错误);  DASD (硬盘驱动器错误)  Hdwr version err ,能够定位到每块硬盘;  BOARD(I/O 故障) ;I/O Channel Chk;  PS

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档