分布式云资源监控-IndicoIHEP-高能物理研究所
分布式云资源监控
郑伟
zhengw@
中科院高能物理研究所
01 系统需求
随着云计算、大数据、高性能平台等技术应用,站点规模不断扩大、设备数量
不断增加。传统的IT基础设施管理水平和运维技术逐渐难以应对不断扩展的网络环境
和不断增长的应用需求。传统的数据中心扩展为多个分布式站点 ,物理资源和云资
源混合运行模式。对传统的监控和运维系统提出新的需求,需要一个既能够完成对
本地大规模网络设备、服务器、系统服务的集中统一监控系统 ,又能对分布各地的
云资源进行信息收集,对监控的实时性、可靠性以及分布式扩展功能提出更高的要
求。
目前分布式云资源监控系统实现以IHEP为中心站点 ,多个分布式站点联合统一
监控的监控模式,在运维上保证所有站点的有效可用,保障物理作业跨站点正常提
交,实现降低运维成本和提升整体IT管理能力。
1
02 系统介绍
云资源监控系统,可以实现跨设备、跨平台、跨系统的数据采集 ,能够实时监
控各个设备和服务的运行状态和性能,及时显示故障信息 ,方便快速掌握各个站点
整体运行情况。
网络监控:SNMP、TCP/UDP、SMTP、IMAP、HTTP(S)、FTP、SSH、DNS、DHCP、端口状态等
系统监控:Linux/Unix、Windows、Solaris 、FreeBSD、AIX、Android等
硬件监控:路由器、交换机、防火墙、服务器、工作站、打印机、UPS以及环境设备等
资源监控:CPU load、Memory usage、SWAP、disk usage、IO、system log等
服务监控:HTTP/Apache/IIS、PBS、Luster、AFS、Gluster、SMTP、CA认证等
流量监控:多层次,站点、集群、服务器的网络IO、磁盘IO流量等实时曲线查看与历史记录
报警通知:7*24小时通过短信、电子邮件、微信等手段即时通讯通知管理员
2
03 系统架构
3
04 监控Dashboard
4
05 监控Dashboard
5
06 性能监控系统
性能监控系统:
• 主要是用来监控系统性
能,如:CPU 、Memory、
硬盘利用率、 I/O负载、
网络流量情况等
• 每台主机的性能信息和状
态信息绘制成曲线,通过
这些曲线图形可以方便观
察每个主机的工作状态
• 对整个大规模集群合理调
整、分配系统资源,提高
系统整体性能起到重要作
用
6
07 性能监控
性能监控主机快照
• 允许检查所有节点性
能度量的历史
• 某个节点颜色变红
时,意味着它的CPU平
均负载比较大
• 除了CPU监控,还可以
展示网络流量、内
存、进程等度量的历
史曲线。
7
08 底层硬件多协议支持
支持由单一的NRPE 代理监控模式,扩展为SNMP、IPMI、Sflow等多种监控协议支持
• SNMP:简单网络管理协议
您可能关注的文档
最近下载
- 2026年全国教学能力比赛全景指南与备赛策略.pdf VIP
- 污水处理设备安装调试方案.pdf VIP
- DB31T 1455-2023 青少年社会工作服务实施指南.pdf VIP
- 传染病学 疟疾(讲稿).pptx
- Unit 3 Face 英语精品课件.pptx VIP
- 2025年内蒙古北方职业技术学院单招考试文化素质数学考前冲刺练习word附答案详解.docx VIP
- 2025年初级压缩机操作工(五级)技能认定理论考试题库资料(含答案).pdf
- 基于多模型融合的沥青路面使用性能评价与预测体系研究.docx VIP
- 2024全国卷高考语文-答题卡模板 .pdf VIP
- 《煤矿开采学》教案.doc VIP
原创力文档

文档评论(0)