腾讯专家分享:腾讯做业务监控的心得和经验教学内容.pdfVIP

  • 4
  • 0
  • 约7.52千字
  • 约 12页
  • 2020-07-28 发布于天津
  • 举报

腾讯专家分享:腾讯做业务监控的心得和经验教学内容.pdf

腾讯专家分享:腾讯做业务监控的心得和经验 分享主题: 腾讯业务立体化监控体系 1、介绍腾讯业务监控体系的层级 构成; 2、用代表性的监控系统阐述每个监控层次的实现方法; 3 、 与监控体系配合,业务做了哪些容灾和调度的方案。 分 享实录: 首先很荣幸在这里给大家分享腾讯在做业务监控的一些心 得和经验,当然今天所提及的只是腾讯业务运营监控体系中 的小部分,也欢迎大家一起在运营体系建设、精细化运维等 方面共同探讨和学习。 我们用一个 QQ 红包开始今天的分享吧。 表面看是抢红包这么简单的一个功能,其实光抢红包这个动 作,它所关联的监控系统就有好多个!如图所示,腾讯的业 务从逻辑上可以抽象总结成四个层次:用户层( PC、手机、 智能硬件等) 、接入层、逻辑层和数据层(包括数据缓存层 和持久化层) 。 腾讯业务的监控系统是立体化覆盖,总结来说也是由四个层 级组成:基础设施层 基础设施层的监控覆盖范围很广,在腾讯包括:与运营商互 联出口、 专线 (包括城域和广域 )、机房 (包括各类物理设施 如机架、制冷、配电、消防、安防等 )、网络设备(交换机、 路由器、防火墙等)等。 基础设施层的监控又分为状态、性能、质量、容量、架构等 几个层面。举例说明: ▎状态监控, 包括网络设备的软硬件状态, 如设备存活状态、 板卡、电源、风扇状态,设备温度、光功率、 OSPF 状态、 生成树状态等; ▎性能监控,包括设备 CPU、设备内存大小、 session 数量、 端口流量包量、内存溢出监控、内存使用率等; ▎质量监控,包括设备错包、丢包率,针对网络设备以及网 络链路的探测延时、丢包率监控等; ▎容量监控,包括设备负载使用率、专线带宽使用率、出口 流量分布等; ▎架构监控, 包括路由跳变、 缺失、 绕行, 流量穿越监控等。 服务器层 服务器是业务部署运行起来的载体(早期服务器就是我们传 统观念上的“物理机 + 操作系统”,现在已经扩大到虚拟机或者 是容器等范畴) 。服务器层的监控包括硬件层面和软件层面。 硬件层面的监控主要包括如下内容: ▎硬盘: 硬盘读写错误、 读写超时、硬盘掉线、硬盘介质错误、 [SSD 硬盘 ] 硬盘温度、 硬盘寿命、硬盘坏块率; ▎内存: 内存缺失、 内存配置错误、 内存不可用、 内存校验; ▎网卡:网卡速率; ▎电源:电源电压、电源模块是否失效; ▎风扇:风扇转速; ▎ Raid 卡: Raid 卡电池状态、电池老化、电池和缓存是否在 位、缓存策略。软件层面的监控主要包括: ▎CPU: CPU 整体使用率、 CPU 各核使用率、 CPU Load 负 载;▎内存:应用内存、整体内存、 Swap 等;▎磁盘 IO : 读写速率、 IOPS、平均等待延时、平均服务延时等;▎网络 IO :流量、包量、错包、丢包;▎连接:各种状态的 TCP 连 接数等▎进程端口存活;文件句柄数;进程数;内网探测延 时;丢包率等。业务程序层 容量管理系统:容量管理系统基于“服务器层”在软件层面的 监控指标,并且配合业务增长、运营活动等因素而建设,用 于客观衡量业务负载高低情况,并结合扩缩容调度,实现业 务的负载和成本间的平衡。 具体原理是根据服务器所在

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档