- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
?
? ? ? ?
? ? ?
# 监控体系建设的三个阶段概括-第一部分
? ? ? ?
?
?
?
?
?
?
?
? ? ?
? ? ?
? ? ?
?
?
?
监控体系建设的三个阶段概括-第一部分
1.监控建设
这是监控体系建设最基础也是最重要的部分,后续体系化、智能化部分都依赖于这个阶段的建设。在这个阶段中,我们需要挑选合适的监控工具,明确我们的监控目标,做好告警配置,提供数据展示。当这些完成之后,我们就有了一个最基础的监控平台,大多数小公司做到这一步就已经完成了监控的建设,但是这只是开始。
1.1 监控工具
,监控工具是实现监控功能和监控效果最基础的组件,如同高楼大厦的地基一般,监控工具的完善程度直接决定了整套监控体系的运转,那么如何挑选监控工具?如何使用监控工具?如何发挥监控功能应有的作用呢?
在选择基础监控工具的时,必须要先明白基础监控工具的使用范围。一般来讲,会将IDC内部的基础设施的监控归属到基础监控工具里面,常见的有zabbix、prometheus、Open-Falcon(Nightingale)等较为流行的开源监控工具,还有很多商业化软件,就不一一介绍了。
在选择监控工具时,需要了解监控系统所要部署的网络环境、运维架构、运维规模等内容,也每个监控工具的数据采集、存储、计算的方式和特点,从而挑选最合适的基础监控工具。
监控工具选型完成之后进行建设,主要考虑以下几点
性能保障:大型IDC的监控数据日增超过50G,如何保障数据的高速读写、快速计算、及时告警等事项是最重要的,较为热门的zabbix和prometheus都有成熟的性能保障解决方案。需要注意的是,前期的数据量可能较小,随着时间的增加监控规模越来越大,在建设初期尽可能的关联到后续的发展需要,避免后期踩坑。
高可用:要求在任意组件出现问题时,均能快速恢复监控系统的可用性,无论是集群方案还是keepalived,均要做好充分测试,避免出现短时间不可恢复的故障时监控系统不可用;
快速迭代:要求监控系统的扩大化部署和在需要进行更新时能够迅速完成,减少部署难度、提高自动化水平,可借助ansible等自动化运维工具完成。
1.2 监控指标
在监控建设过程中,监控指标的设立是非常重要的,它会告诉我们哪些组件应该监控哪些指标,相当于监控部署说明书。现在的IDC内部组件非常多,一些互联网公司的技术栈甚至超过上百种,那么每一类的监控指标如何确立呢,建议采用分层的方法进行确立。
第一层-基础设施:包含网络设备(交换机、路由器、防火墙、负载均衡、专线、CDN等等)、物理服务器、虚拟服务器等设备。
第二层-服务软件:包含java中间件(Tomcat、Jboss、weblogic等)、消息中间件(kafka、MQ等)、数据库(Mysql、Oracle、PG、ES等等)、运维服务(ansible、pupeet、DNS、NTP等)等等。
第三层-应用服务:包含应用日志、接口调用(黄金指标:请求数量、成功比率、响应时间、性能容量标)及其他一些异常事件。
第四层-业务场景:包含会员验证、文件传输、账务数据、订单数据、交易数据、异常巡检等业务数据的监控。
第五层-用户场景:崩溃、卡顿、网络错误、网络性能、交互分析、ANR等内容。
通过对监控进行分层,再对每一层的每个组件进行解刨,从而获取完整的监控指标列表,指标的数量根据实际情况进行筛选,在保障监控系统容量的情况下,宜多不宜少,更多的监控指标会在产线发生故障的时候提供参考。
1.3 告警标准
指标设定完成之后,那么重点指标需要进行告警配置,通常我们会将告警分为几个等级,不同的阈值对应不同的告警等级,从而经由不同的告警通道投递给不同的人员。在设立告警的时候,我们要注意以下几点:
等级区分:不同的告警级别之前的设立依据是要有区分的,比如严重告警等级的设立是为了标识产线已经出现异常,让负责人员快速响应,而警告告警等级的设立则是为了标识产线的一个基础事件,只是通知负责人注意处理,避免产生异常。通过告警等级的区分,标识出不同事件的严重性。
告警通道:建议不同等级的监控告警采用不同的告警通道,此举是在节约成本的前提下,尽可能的提高处理效率,例如警告告警,只需要通过微信或者钉钉通知、一般严重告警则需要短信通知、严重告警则需要电话外呼。
告警负责人:建议不同等级的监控告警通知的人员也有所区分,此举依旧是促进提升监控告警的恢复效率,例如警告告警,只需要通知给值班人员或者一线责任人,一般严重告警除了上述人员外还需要通知给二线责任人,严重告警则需要通知到相关的领导人员。
1.4 数据展示
在监控系统建设、指标确认、告警标准都完成之后,那么就要考虑对采集到的数据进行展示了,方便系统管理员和相关人员查看数据,一般来讲,我们需要做到以下的数据展示:
采样数据:采样数
您可能关注的文档
最近下载
- 2024年公共卫生与预防医学继续教育平台“大学习”活动线上培训栏目考试题库(1392题).docx
- 自动化仪表选型设计规范.pdf VIP
- 1222 QEOSP•B-02记录控制程序.doc
- 天人合一的园林.ppt
- 迪安诊断-市场前景及投资研究报告:“服务+产品”双轮驱动,医学诊断服务整体解决方案提供商.pdf
- 2024中国新型储能行业发展白皮书-储能领跑者联盟.pdf VIP
- 小学科学苏教版三年级上册全册教案(2023秋新课标版).doc
- 【小升初】2023-2024学年外研版(三起)英语秋季开学分班考摸底测试卷(四)含答案.pdf
- MG450/1170-WD型交流电牵引采煤机说明书.doc
- 留守儿童基本情况登记表.docx
文档评论(0)