博睿数据2024IT运维最佳实践白皮书.docx

博睿数据2024IT运维最佳实践白皮书.docx

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

BACKGROUND

一、背景

1.博睿数据运维环境现状

平台系统13套

平台系统13套监控环境3套

物理机700+

网络/安全设备200+

平台承载量

指标量

Zabbix2万/秒Prometheus35万/秒RUM日活4000W+APM探针100000+

Zabbix2万/秒

Prometheus35万/秒

2.运维目标

改变传统的运维模式,化被动为主动

PAINPOINTS

二、痛点

业务日志分析能力欠缺,影响问题排查效率风险防范意识不足,且缺少治理动作监控覆盖度不全,出现故

业务日志分析能力欠缺,影响问题排查效率

风险防范意识不足,且缺少治理动作

报警平台、信息过多,有价值的报警信息容易被淹没且分散

运维人员关注

机器资源一直在申请,从未被回收,浪费严重根因定位不准确,业务调用链不清晰,

机器资源一直在申请,从未被回收,浪费严重

SOLUTION

三、解决方案

1.提前发现并解决潜在风险,运维监控从被动走向主动

AI风险检测功能

系统运作过程中,风险虽然不影响用户体验,但多个风险累积容易发生平台打不开、数据丢失等故障问题。为了提前发现风险将故障扼杀在摇篮中,运维团队不断完善BonreeONE的指标体系建设,AI风险检测更加准确。在日常运行中,当系统检测到有一个多活程序挂了,运维人员便能立刻发现去解决;CPU过高时,系统发出告警,负责人员便能及时打堆栈,并联系研发部门分析原因,在风险累积衍生成故障之前解决问题,降低故障发生率。

BonreePilot的自动巡检和即时巡检功能

利用自动巡检与即时巡检功能,对BonreeONE全套组件以及核心指标实施全面健康监测,涵盖主机监控、服务监控、运营分析、告警管理、业务监控等多个关键模块。当巡检报告中出现了告警和问题,例如磁盘容量告急:

过去的被动运维:磁盘容量告急,立马缩减/扩容

现在的主动运维:磁盘容量告急,先看表详情,观察这些表的增长趋势是否合理,表结构设计是否合理,是否存在优化空间,将空间释放、不合理设计优化后再采取对应的解决措施进行缩减/扩容,对运维成本进行主动管控。

2.平台统一监测,打破孤岛,避免运维多线作战

集成能力

将Zabbix、Prometheus等监控方式通过集成功能,实现一体化存储,用全栈根因分析,统一告警,运维人员无需监控每一个平台,通过BonreeONE便可以直观查看所有数据。

可用性监测

运维团队抢先体验了BonreeONE3.0的新功能:可用性监测。可用性监测支持HTTP多地址访问,释放了运维人员写脚本的工作量。同时能够自定义内外网监测点,以前对公网域名监控时需要给Zabbix机器增加外网访问的能力,因Zabbix机器有访问所有机器的权限,具备外网能力后,这显然不符合安全规定。可用性监测功能够同时使用内网和外网的监测点,很好地解决了这个问题。新功能弥补了开源工具对HTTP监控的缺失,也降低运维人员对shell脚本开发能力的依赖。

3.AI智能观测,快速定位根因问题与影响范围

全域分析

将数据统一集成到BonreeONE后,运维团队以实体关系为核心构建数据指标体系,平台统一对数据进行分析、关联、查看等,问题定位更加准确。

过去查看日志需要上机器,且日志需符合等保3级对日志审计系统的要求,系统日志、安全日志、关键配置等均要能够保存和分析,现在在平台上便能立即查看相关日志信息,打破运维传统的流程惯例。

接入Zabbix、Prometheus等第三方数据后,运维人员能够通过查看依赖分析影响范围,很直观地看出当前程序访问了哪些服务,以及哪些服务访问了当前程序。

调用链分析能够在问题出现时帮助运维团队定位到Server领域或者慢方法,定位更准确,节约时间。

根因分析

发现风险报警问题后,打开问题详情,通过详情清单查看本次故障所涉及到的实体信息。

根据系统提供的初步判断查看具体的方法、SQL等

RESULTSANDBENEFITS

四、成果及收益

通过使用BonreeONE,运维团队的工作模式实现了从被动应对问题向主动治理风险的根本性转变。主动运维策略将风险与问题前置,团队能够提前识别并解决风险,显著提升系统稳定性的同时极大地减轻了运维人员的工作负担。同时,风险与问题前置也为运维人员争取了充裕的时间,能够在问题出现前对系统进行深入的观察和分析,及时进行必要的调整优化,这不仅提升了运维效率,还实现了资源成本的节约。2024年1月至9月期间,BonreeONE的运用及运维团队工作模式的转变已成功为公司节约成本近80w人民币(≈物理机12台)。

风险预防能力显著提升

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档