- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从初创型到独角兽企业,监控架构演进的那些事儿
运满满创立于 2021 年,努力于为大路运输行业供应高效管理配货的 app。在 5 年时间内从初创型公司进展到独角兽企业,我们经受了很多次的技术架构调整。
今日给大家共享下不同时期,在运维监控方面做的多次架构升级。期望给大家在技术选型阶段,供应一些参考和自创。
二、架构演进
运满满监控全体可以分为三个阶段:全家桶套餐时代、DevOps 时代、定制 AIOps 时代
创业期:全家桶套餐
在 2021 年以前,公司业务进展的不确定性,服务器数量规模较少。大部分都是靠运维人工监控、每日脚本巡检。
和大部分创业公司一样,当时的运维人员把握在 3 人以下,每天都在处理各类开发需求,完全没有空闲去开发系统,做全体的监控告警。这个阶段,我们急需一款开源的、功能齐全的、入门成本低的监控系统。
Zabbix 是我们当时的选择,简约的配置页面,丰富的 agent 数据采集,支持短信、邮件及微信告警,在一个星期内,我们就完成了全站的基础监控。
Zabbix 开箱即用的使用方式,适合初创型公司。即便是现在,Zabbix 还在线上运转,监控网络设备的运转形态。
进展期:DevOps 时代
到了 2021 年,随着业务高速进展,研发的需求越来越简单,同时也暴显露 Zabbix 的很多缺点。
Zabbix 功能瓶颈,监控数据存储在 Mysql 中,随着监控数据越来越多,Zabbix 响应时间变慢。
Zabbix 只支持 metric 类型监控,对于日志类监控,支持并不友好。
Zabbix 监控大盘页面不美观,无法满足业务方定制的需求。
基于以上问题,我们开头寻求专业领域内的各类监控。
CAT
CAT(Central Application Tracking) 是基于 Java 开发的实时监控平台,次要包括移动端监控,应用侧监控,核心网络层监控,系统层监控等。
CAT 的优点是功能丰富,支持钉钉告警,95 线 99 线计算,可呈现代码级别监控,在代码层毛病定位供应了强有力的工具。
LEPUS
Lepus(天兔) 数据库企业监控系统是一套由专业 DBA 针对互联网企业开发的一款强大的企业数据库监控管理系统。Lepus 后端接受 Python 言语开发,对于运维格外友好,可以很便利地作出一些共性化的修改。
Lepus 的优点是无需安装 agent,账号集中管理,适合作为数据库的 CMDB 使用。
ELK 监控生态
ELK(Elasticsearch,Logstash,Kibana) 是 Elastic 公司供应的三个开源组件。在日常工作中,我们需要进行日志分析场景:直接对日志文件进行 grep、awk 等正则操作,猎取我们想要的信息。在大规模的场景中,日志文件分布在不同的服务器上,且文件格外大,逐台操作功能格外低。比如 Nginx 日志,Mysql 慢查询日志,应用 log 日志等。ELK 供应一整套的处理方案,可以挂念我们快速全站查询。
下图是 Mysql 慢查询的截图,通过 python 脚本,可以实时读取 Mysql 慢查询日志,并写入 ES,便利查看线上问题。
下图是服务器的 dashboard,通过模糊婚配,可以快速查询相关服务器组的功能目标。
Open-Falcon
Open-Falcon 是小米开源的监控系统,机警的数据采集,水平扩展力量以及高效的告警策略挂念我们快速监控 servers 的信息。在实际的环境中,我们仅接受了 falcon-agent、falcon-transfer 组件,挂念我们采集数据,具体的存储及呈现由更专业的组件处理。
数据存储及呈现
随着业务的进展,数据量越来越大,需要一款通用的时序数据库供应数据存储,当时有 Prometheus、OpenTSDB、InfluxDB 三大选择。
Prometheus 供应了丰富的数据模型和查询语句,简约上手,很简约集成到现有的环境中,但是 Prometheus 的集群和 HA 架构并不成熟,需要额外的开发,并不适合。
InfluxDB 是在 Prometheus 之后才提出的,并且供应商业的伸缩和集群化服务,相比 Prometheus 的 metrics 存储,InfluxDB 还能处理大事类型的数据,对于大部分公司而言,商业化基本不会考虑。
OpenTSDB 是一个基于 Hadoop 和 Hbase 的分布式大事序列数据库,相比 Prometheus 和 InfluxDB,OpenTSDB 的横向扩缩容很简约 (需要有丰富的 Hadoop/HBase 维护阅历), 同时官方 Open-falcon 支持 OpenTSDB,结合公司现有的技术栈,综合考虑后最终选择了 OpenTSDB 作为我们的存储。
关于数据呈现的选型,在没有自研力量的情况下
您可能关注的文档
最近下载
- JJF(电子)30306-2010 示波器差分探头校准规范.pdf VIP
- 750t履带吊安装拆卸安装方案.docx VIP
- 2018版肺血栓栓塞症诊治与预防指南.pdf VIP
- 社保扣款银行协议书.docx VIP
- 2025年通城县第二批事业单位公开招聘16名工作人员笔试参考题库附答案解析.docx VIP
- 2025-2026学年统编版三年级道德与法治上册全册教案设计.pdf VIP
- 2025高考数学专项复习:圆锥曲线基础总结、二级结论、方法与技巧.pdf VIP
- 五年级第一次月考试卷.docx VIP
- 第九讲_语言测.ppt VIP
- 2025年新济南版七年级上册生物全册精编知识点(新教材专用).pdf
文档评论(0)