- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
小米 运维|监控
laiwei@小米
关于
laiwei @ 小米公司系统运维
微博:@hellolaiwei
Github: @laiwei
关注
安全
应用运维,服务管理,监控
IaaS/PaaS
引言
从小到大……
从野生到标准……
摘要
运维平台
服务管理
监控系统
服务管理 - 服务树
筛选机器
授权管理
核心功能
服务管理 - 服务树
公司
部门
产品线
服务
模块
分组
机房
状态
服务管理 - 服务树
部门
产品线
机房
服务管理 - 服务树
筛选
筛选上地机房offline机器
# select -s idc.sd_status.offline
筛选米聊产品线第一个分组
# select -s iao_grp.1
服务管理 - 服务树
反筛选
想知道某个机器上有哪些模块(标签)
自省
# rselect
服务管理–服务树设计
标签的意义
一个有特定意义的属性
比如:
机房
位置
在线状态
产品线
模块
……
服务管理–服务树设计
标签的运用
机器的“状态”发生变化的时候,伴随着标签的变更
机器到货,会自动添加owt.sa_loc.bj_idc.sd等
机器交付到线上,会自动添加相应的部门,产品线,模块等标签
机器故障,会自动添加blem
“状态”什么时候会发生变更?
人工操作
周边系统
服务管理–服务树设计
标签的定义
公司
部门
产品线
服务
模块
分组
机房
状态
# 组合标签
cop.xiaomi
iao
pdl.account
mod.fe
grp.online
# 全局标签
idc.sd
loc.bj
blem
部署
服务树
监控
调度
监控
监控
监控和服务一体化
监控和服务一体化
一组标签的集合,构成了一个“服务”
一个服务,对应着自己的多个模板
每个模板,都是一组数据采集项和一组告警策略的集合
机器的自动加入,触发模板自动应用
问题:模板的维护依赖人工操作,后续会通过部署来解决
监控和服务一体化
监控分类
常规监控
系统资源cpu,memory,disk,network等
服务的qps,latency,response_time等
Perf-counter
程序在运行过程中,内部主动反馈自身运行状态的计数器
包括exception_counter,qps,75th-percentile,访问db时间等
域名监控
从多点监控域名的连通性
全国大概有20个点
访问质量
监控系统开发
选择
自己开发
开源软件
开源软件二次开发
开源监控软件候选列表
首先真是多 wikipedia一个关于监控系统的列表
选择一个合适的,还挺难
监控系统开发
选择标准
数据采集
支持的方式多,同时最好能有个agent
能解决跨机房,跨网络分区
性能高,支持数万台设备监控
最好能支持自动发现
告警
模板
易配置,易管理
告警及时,告警条件灵活组合
监控系统开发
选择标准
数据展示
快,漂亮
功能:同比,环比,百分比曲线,单机器多指标,单指标多机器
方便订制dashboard
其他
开放,方便各种订制,开发
可扩展,包括存储,告警,数据采集
经过对比调研
我们选择了zabbix作为基础
部署结构
Zabbix-server
mysql中间层
Zabbix-web
host-1
Zabbix-agent
host-2
Zabbix-agent
host-3
Zabbix-agent
host-4
Zabbix-agent
Zabbix-proxy
Agent主动上报数据
Server定期拉取数据
proxy定期拉取数据
proxy推数据给server
用户配置
告警策略
数据采集项等
1.数据插入
2.判断是否告警
机房2
db
partition 1
db
partition 2
db
partition 3
Zabbix-api
redis
dashboard
监控数据
常规监控
10万 counter
zabbix-server主动获取数据 [proxy]
perf-counter
50万+ counter
trapper模式,批量主动推数据到zabbix-server
Dashboard
每个产品线都会定制自己的dashboard
Dashboard
也可以选择查看更详细的指标
Dashboard
绘图
基于zabbix的api,方便的开发dashboard
同比,环比,求和,最大值,最小值,平均值采样
screen
多个graph展示在一个页面,构成一个screen
每个产品线自行订制多个screen,构成dashboard
提高绘图性能
后端只生成数据,前端js负责渲染 [highcharts]
[缓存]分析binlog,将zabbix的数据实时cache到redis
[缓存]数据插入前,先插入redis
绘图时
您可能关注的文档
最近下载
- 辽宁大学2023-2024学年第1学期《高等数学(上)》期末考试试卷(A卷)附参考答案.pdf
- DB4113T037-2023 《金鱼养殖技术规范》.pdf VIP
- 2024-2025学年北京顺义区八年级初二(上)期末英语 试卷(含答案).pdf
- DG_TJ08-2062-2025 住宅工程套内质量验收标准.pdf VIP
- 基于激光散斑图像共生纹理特征的表面粗糙度测量:理论、方法与实践.docx VIP
- 调味品采购验收标准及流程规范.docx VIP
- 非ST段抬高型急性冠状动脉综合征诊断和治疗指南(2016年).pdf VIP
- 虚拟数字人在艺术展演中的应用与互动式观演体验升级研究毕业答辩汇报.pptx VIP
- 《营养烹饪技术》高职医学营养专业全套教学课件.pptx
- 公司管理制度-关联交易管理办法.docx VIP
原创力文档


文档评论(0)