腾讯专家分享腾讯做业务监控的心得和经验.docVIP

腾讯专家分享腾讯做业务监控的心得和经验.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
腾讯专家分享:腾讯做业务监控的心得和经验 分享主题: 腾讯业务立体化监控体系1、介绍腾讯业务监控体系的层级构成; 2、用代表性的监控系统阐述每个监控层次的实现方法;3、与监控体系配合,业务做了哪些容灾和调度的方案。 分享实录: 首先很荣幸在这里给大家分享腾讯在做业务监控的一些心得和经验,当然今天所提及的只是腾讯业务运营监控体系中的小部分,也欢迎大家一起在运营体系建设、精细化运维等方面共同探讨和学习。 我们用一个QQ红包开始今天的分享吧。 表面看是抢红包这么简单的一个功能,其实光抢红包这个动作,它所关联的监控系统就有好多个!如图所示,腾讯的业务从逻辑上可以抽象总结成四个层次:用户层(PC、手机、智能硬件等)、接入层、逻辑层和数据层(包括数据缓存层和持久化层)。 腾讯业务的监控系统是立体化覆盖,总结来说也是由四个层级组成:基础设施层 基础设施层的监控覆盖范围很广,在腾讯包括:与运营商互联出口、专线(包括城域和广域)、机房(包括各类物理设施---如机架、制冷、配电、消防、安防等)、网络设备(交换机、路由器、防火墙等)等。 基础设施层的监控又分为状态、性能、质量、容量、架构等几个层面。举例说明: ▎状态监控,包括网络设备的软硬件状态,如设备存活状态、板卡、电源、风扇状态,设备温度、光功率、OSPF状态、生成树状态等; ▎性能监控,包括设备CPU、设备内存大小、session数量、端口流量包量、内存溢出监控、内存使用率等; ▎质量监控,包括设备错包、丢包率,针对网络设备以及网络链路的探测延时、丢包率监控等; ▎容量监控,包括设备负载使用率、专线带宽使用率、出口流量分布等; ▎架构监控,包括路由跳变、缺失、绕行,流量穿越监控等。服务器层 服务器是业务部署运行起来的载体(早期服务器就是我们传统观念上的“物理机+操作系统”,现在已经扩大到虚拟机或者是容器等范畴)。服务器层的监控包括硬件层面和软件层面。 硬件层面的监控主要包括如下内容:▎硬盘:硬盘读写错误、读写超时、硬盘掉线、硬盘介质错误、[SSD硬盘]硬盘温度、硬盘寿命、硬盘坏块率; ▎内存:内存缺失、内存配置错误、内存不可用、内存校验; ▎网卡:网卡速率; ▎电源:电源电压、电源模块是否失效; ▎风扇:风扇转速; ▎Raid卡:Raid卡电池状态、电池老化、电池和缓存是否在位、缓存策略。软件层面的监控主要包括: ▎CPU:CPU整体使用率、CPU各核使用率、CPU Load负载;▎内存:应用内存、整体内存、Swap等;▎磁盘IO:读写速率、IOPS、平均等待延时、平均服务延时等;▎网络IO:流量、包量、错包、丢包;▎连接:各种状态的TCP连接数等▎进程端口存活;文件句柄数;进程数;内网探测延时;丢包率等。业务程序层 容量管理系统:容量管理系统基于“服务器层”在软件层面的监控指标,并且配合业务增长、运营活动等因素而建设,用于客观衡量业务负载高低情况,并结合扩缩容调度,实现业务的负载和成本间的平衡。 具体原理是根据服务器所在业务层级(接入层、逻辑层还是数据层)的不同,设置不同的容量参考指标、指标参考基准、指标计算规则、高低负载判别规则,设置业务模块(由相同功能的多个服务器构成的业务集群)的扩缩容规则;由系统计算出服务器、业务模块的负载情况,决策出是否需要扩容或缩容,触发业务模块的扩缩容操作。说明:服务器、业务模块的负载计算规则也是由业务可以自定义配置。 模块间调用: 在腾讯内部简称“模调”,2006年开始已经广泛应用于各大业务,用于实时监测后端服务与服务之间调用的质量,可以细化到服务模块、接口、命令字甚至代码层面(现在看来,其实就是目前各个APM厂商在大力宣传和推广的代码级监控产品)。 ●1、针对使用标准化组件(在腾讯内部业务,用户层使用的标准组件是wns;接入层使用的标准组件是Qzhttp、tngix;逻辑层使用的标准组件是spp+L5;数据层使用的标准组件是CKV、CDB等)的业务,由标准组件上报模调监控数据; ●2、针对自定义业务Server,提供模调上报的SDK或API,由业务自主上报服务间的每次调用成功与否,每次调用的延时; ●3、模调系统支持业务从用户层-gt;接入层-gt;逻辑层-gt;数据层,全路径用唯一的序列号(通常由时间、功能模块ID、UIN、随机值等因素构成此值)来对业务请求染色,方便业务展现出每次请求完整的从前到后的调用链路。用户体验 测速

文档评论(0)

ipbohn97 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档