小米运维监控.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
小米 运维|监控 laiwei@小米 关于 laiwei @ 小米公司系统运维 微博:@hellolaiwei Github: @laiwei 关注 安全 应用运维,服务管理,监控 IaaS/PaaS 引言 从小到大…… 从野生到标准…… 摘要 运维平台 服务管理 监控系统 服务管理 - 服务树 筛选机器 授权管理 核心功能 服务管理 - 服务树 公司 部门 产品线 服务 模块 分组 机房 状态 服务管理 - 服务树 部门 产品线 机房 服务管理 - 服务树 筛选 筛选上地机房offline机器 # select -s idc.sd_status.offline 筛选米聊产品线第一个分组 # select -s iao_grp.1 服务管理 - 服务树 反筛选 想知道某个机器上有哪些模块(标签) 自省 # rselect 服务管理–服务树设计 标签的意义 一个有特定意义的属性 比如: 机房 位置 在线状态 产品线 模块 …… 服务管理–服务树设计 标签的运用 机器的“状态”发生变化的时候,伴随着标签的变更 机器到货,会自动添加owt.sa_loc.bj_idc.sd等 机器交付到线上,会自动添加相应的部门,产品线,模块等标签 机器故障,会自动添加blem “状态”什么时候会发生变更? 人工操作 周边系统 服务管理–服务树设计 标签的定义 公司 部门 产品线 服务 模块 分组 机房 状态 # 组合标签 cop.xiaomi iao pdl.account mod.fe grp.online # 全局标签 idc.sd loc.bj blem 部署 服务树 监控 调度 监控 监控 监控和服务一体化 监控和服务一体化 一组标签的集合,构成了一个“服务” 一个服务,对应着自己的多个模板 每个模板,都是一组数据采集项和一组告警策略的集合 机器的自动加入,触发模板自动应用 问题:模板的维护依赖人工操作,后续会通过部署来解决 监控和服务一体化 监控分类 常规监控 系统资源cpu,memory,disk,network等 服务的qps,latency,response_time等 Perf-counter 程序在运行过程中,内部主动反馈自身运行状态的计数器 包括exception_counter,qps,75th-percentile,访问db时间等 域名监控 从多点监控域名的连通性 全国大概有20个点 访问质量 监控系统开发 选择 自己开发 开源软件 开源软件二次开发 开源监控软件候选列表 首先真是多 wikipedia一个关于监控系统的列表 选择一个合适的,还挺难 监控系统开发 选择标准 数据采集 支持的方式多,同时最好能有个agent 能解决跨机房,跨网络分区 性能高,支持数万台设备监控 最好能支持自动发现 告警 模板 易配置,易管理 告警及时,告警条件灵活组合 监控系统开发 选择标准 数据展示 快,漂亮 功能:同比,环比,百分比曲线,单机器多指标,单指标多机器 方便订制dashboard 其他 开放,方便各种订制,开发 可扩展,包括存储,告警,数据采集 经过对比调研 我们选择了zabbix作为基础 部署结构 Zabbix-server mysql中间层 Zabbix-web host-1 Zabbix-agent host-2 Zabbix-agent host-3 Zabbix-agent host-4 Zabbix-agent Zabbix-proxy Agent主动上报数据 Server定期拉取数据 proxy定期拉取数据 proxy推数据给server 用户配置 告警策略 数据采集项等 1.数据插入 2.判断是否告警 机房2 db partition 1 db partition 2 db partition 3 Zabbix-api redis dashboard 监控数据 常规监控 10万 counter zabbix-server主动获取数据 [proxy] perf-counter 50万+ counter trapper模式,批量主动推数据到zabbix-server Dashboard 每个产品线都会定制自己的dashboard Dashboard 也可以选择查看更详细的指标 Dashboard 绘图 基于zabbix的api,方便的开发dashboard 同比,环比,求和,最大值,最小值,平均值采样 screen 多个graph展示在一个页面,构成一个screen 每个产品线自行订制多个screen,构成dashboard 提高绘图性能 后端只生成数据,前端js负责渲染 [highcharts] [缓存]分析binlog,将zabbix的数据实时cache到redis [缓存]数据插入前,先插入redis 绘图时

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档