分布式云资源监控-IndicoIHEP-高能物理研究所.PDF

分布式云资源监控-IndicoIHEP-高能物理研究所.PDF

分布式云资源监控-IndicoIHEP-高能物理研究所

分布式云资源监控 郑伟 zhengw@ 中科院高能物理研究所 01 系统需求 随着云计算、大数据、高性能平台等技术应用,站点规模不断扩大、设备数量 不断增加。传统的IT基础设施管理水平和运维技术逐渐难以应对不断扩展的网络环境 和不断增长的应用需求。传统的数据中心扩展为多个分布式站点 ,物理资源和云资 源混合运行模式。对传统的监控和运维系统提出新的需求,需要一个既能够完成对 本地大规模网络设备、服务器、系统服务的集中统一监控系统 ,又能对分布各地的 云资源进行信息收集,对监控的实时性、可靠性以及分布式扩展功能提出更高的要 求。 目前分布式云资源监控系统实现以IHEP为中心站点 ,多个分布式站点联合统一 监控的监控模式,在运维上保证所有站点的有效可用,保障物理作业跨站点正常提 交,实现降低运维成本和提升整体IT管理能力。 1 02 系统介绍 云资源监控系统,可以实现跨设备、跨平台、跨系统的数据采集 ,能够实时监 控各个设备和服务的运行状态和性能,及时显示故障信息 ,方便快速掌握各个站点 整体运行情况。 网络监控:SNMP、TCP/UDP、SMTP、IMAP、HTTP(S)、FTP、SSH、DNS、DHCP、端口状态等 系统监控:Linux/Unix、Windows、Solaris 、FreeBSD、AIX、Android等 硬件监控:路由器、交换机、防火墙、服务器、工作站、打印机、UPS以及环境设备等 资源监控:CPU load、Memory usage、SWAP、disk usage、IO、system log等 服务监控:HTTP/Apache/IIS、PBS、Luster、AFS、Gluster、SMTP、CA认证等 流量监控:多层次,站点、集群、服务器的网络IO、磁盘IO流量等实时曲线查看与历史记录 报警通知:7*24小时通过短信、电子邮件、微信等手段即时通讯通知管理员 2 03 系统架构 3 04 监控Dashboard 4 05 监控Dashboard 5 06 性能监控系统 性能监控系统: • 主要是用来监控系统性 能,如:CPU 、Memory、 硬盘利用率、 I/O负载、 网络流量情况等 • 每台主机的性能信息和状 态信息绘制成曲线,通过 这些曲线图形可以方便观 察每个主机的工作状态 • 对整个大规模集群合理调 整、分配系统资源,提高 系统整体性能起到重要作 用 6 07 性能监控 性能监控主机快照 • 允许检查所有节点性 能度量的历史 • 某个节点颜色变红 时,意味着它的CPU平 均负载比较大 • 除了CPU监控,还可以 展示网络流量、内 存、进程等度量的历 史曲线。 7 08 底层硬件多协议支持 支持由单一的NRPE 代理监控模式,扩展为SNMP、IPMI、Sflow等多种监控协议支持 • SNMP:简单网络管理协议

文档评论(0)

1亿VIP精品文档

相关文档