企业级监控管理平台建设实践分享.doc

企业级监控管理平台建设实践分享.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
? ? ? ? ? ? ? ? 企业级监控管理平台建设实践分享 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 背景概述 监控是IT运维体系中的重要组成部分,作为运维和安全生产保障的生命线必不可少。运维的安全生产保障,主要以“监、管、控、防”为核心,其中“监”则主要指监控。随着科技革命的进行,大数据、微服务、云计算等新技术和架构的应用应运而生,传统的技术框架满足不了日益变化的业务需求和移动互联网的不断挑战。主动开展架构转型,建立开放、弹性、高效、安全的新一代应用系统势在必行。监控平台也随着市场需求向分布式、微服务、易扩展、松耦合的方向发展。集中处理能力,纯化采集能力,处理层服务化,功能松耦合,层级解耦,灵活Scale Up 和 Scale Out,从而实现企业级统一监控管理、统一处理、统一告警、统一展现的一体化监控管理平台。 建设原则 集中监控 在一体化运维体系中,监控平台贯穿所有环节,可以对生产系统涉及的各种环境的实时运行状况进行监控,监控平台事件驱动的特性也为一体化运维体系起到驱动的作用。为了提高投入效率,减少重复投入,建立集中监控平台实现统一展示、统一管理是迫切需要的。集中监控也能够同时实现两地三中心建设,具备灵活的扩展性,支持运维数据分析等功能。 分层监控 当前并没有哪一个监控工具可以覆盖所有生产系统的运行指标,不同的专业线条需要不同的监控工具,因此需要不断完善沉淀监控工具。另外监控平台从WEB、APP、到DB均采用了多中心双活分布式架构部署,但为了保证监控覆盖能力,部分重要的环节仍建议不仅限一套监控工具。 基础设施层:包括运营商网络专线、机房(机房内的设施,比如制冷、安防等)。基础设施层的监控分为状态、性能、质量、容量、架构等几个层面。 网络层:包括存储、网络设备等的可用性状态、IO等。 系统层:包括系统、服务器的可用性、性能消耗等。 数据库层:主要是指数据库的使用情况。 中间件层:主要针对中间件的使用情况。 应用服务层:主要是针对应用服务可用性、应用运行状态、应用性能、链路跟踪等方面。 自主构建:去商业化,自主构建 我们基于开源产品自主研发,提供从底层基础架构到上层应用的多维立体化的监控能力,以及事件发现、处理、跟踪、分析、关闭等一体化管理能力。平台围绕“集中监控、集中管理、智能分析、统一展现”的建设思路,基于Kafka、Flink等大数据框架及流式处理架构,以开源产品为核心自研的分布式事件处理引擎,实现灵活且全面的数据采集和高效的数据处理能力;引入机器学习算法引擎,支撑动态基线、容量预测、事件关联分析及数据价值挖掘等能力;采用微服务架构、容器的管理发布,实现灵活的平台伸缩和高效的开发交付能力。 监控工具 基础监控类 ? 链路工具类 ? 监控指标 指标分类 1、基础架构层 环境动力:暖通系统(如空调、机房环境、漏水)、电力系统(如配电柜)、安防系统(如消防、门禁)等。 安全设备:防火墙、入侵检测、防病毒等。 2、系统网络层 存储设备:磁盘阵列、虚拟带库、物理磁带库、SAN、NAS等。 网络设备:路由器、网络交换机、多层交换机、负载均衡设备。 3、系统层 虚拟化:虚拟网络资源、虚拟主机、虚拟存储资源、容器等。 服务器:大中小型机、X86服务器。 4、数据库层 数据库:ORACLE、MYSQL、SQL SERVER等。 其它系统软件:备份软件 。 5、中间件层 中间件:WEBLOGIC、TOMCAT、REDIS、NGNIX等 。 6、应用服务层 服务可用性:服务状态、日志刷新、端口监听、网络连通性等。 指标分级 有监控指标,就需要针对监控指标定义阈值,监控阈值的设立需要有分级机制。对于升级,是指当一个预警长时间未处理时,需要有一个上升机制,转化为告警,以督办运维人员完成监控事件的处理。分级与上升需通过流程管理加以落实。 监控报警消息级别分为以下5种类型: 平台介绍 平台总体架构 平台分四层:工具层-预处理层-服务处理层-展示管理层 1、工具层:自研采集器+开源采集工具(Zabbix、Prometheus、Sw等),若有工具更新或新的工具接入时,只需定制相关驱动器即可。 2、 预处理层: 平台对采集工具的驱动管理、对采集数据的规则预处理等。 3、 服务处理层: 自研统一事件处理引擎(下文介绍)、标准化后端、拓扑引擎、智能告警引擎等。 4、 展现层: 统一告警查询管理、统一性能展示、统一监控配置中心、平台配置管理、报表中心等。 新一代企业级事件处理引擎? 为了解决商业套件Tivoli OMNIbus的性能问题和架构问题,并实现自主可控的目的,经过充分的调研和设计,我们开发了新一代分布式事件处理引擎,可以完美地替代OMNIbus产品,并提供高并发、分布式、可容错的事件处理机制,可以

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档