王晓川-腾讯 SRE 质量运营体系建设与实践.pptxVIP

  • 3
  • 0
  • 约2.38千字
  • 约 19页
  • 2024-04-02 发布于北京
  • 举报

王晓川-腾讯 SRE 质量运营体系建设与实践.pptx

腾讯SRE质量运营体系建设与实践王晓川腾讯PCGSRE研发负责人/SRE技术专家负责质量运营、可观测、混沌工程等平台的研发工作硕士毕业于北京大学,曾任职工行、美团,深耕SRE领域十年行业背景01基于SLO与On-Call的质量运营体系02目录CONTENTS在鹅厂的大规模落地实践03总结展望0401行业背景壹行业背景理论层面众多可投入方向,如何进行稳定性建设?产品层面SLO与On-Call在业界分别有一些产品或解决方案:产品公司/来源主要领域产品特点PagerDutyPagerDutyInc.质量运营管理On-Call标杆产品OpsgenieAtlassian(Jira)研发过程管理研发管理延伸至On-CallGrafanaGrafanaLabs可视化可视化延伸至On-CallDatadogDatadogInc.可观测领域SLO管理与简化版On-CallGoogleCloudMonitorGoogleInc.可观测领域商业SLO管理SLICKFacebookInc.可观测领域内部SLO管理核心目标:科学解决产品稳定性建设问题核心路径:基于SLO与On-Call的质量运营体系02基于SLO与On-Call的质量运营体系贰基于SLO与On-Call的质量运营体系问题背景产品稳定性无法量化:无法转化为明确的组织管理目标持续性改进提升故障过程不透明不可控:受团队或个人主观因素影响较大,故障影响时间变长传统方法不具备先进性:没有应用DevOps方法论,研发与SRE团队协同不足,稳定性投入普遍积极度不高SLO管理合理:树立稳定性与功能迭代的评估关系协作:SRE与研发共同制定合理的质量目标科学:面向用户场景而非面向系统应用:错误预算燃烧告警;错误预算决策On-Call管理基于SLO与On-Call的质量运营体系产品架构产品目标面向用户:服务技术团队产品能力:参考SLO与PagerDuty,具备完整的理论与功能落地特点:内部大规模接入运营,服务所有产品线目前产品落地情况:已服务腾讯视频、QQ、腾讯文档、腾讯新闻、中台平台等几十个产品,上百个团队03在鹅厂的大规模落地实践叁在鹅厂的大规模落地实践–SLO管理1、核心场景与SLI指标2、SLO目标与错误预算目标怎么定?时间周期:28天(Google推荐)推荐目标:自动计算历史周期给出推荐目标共同制定:SRE主导,研发参与共同制定面向用户,谁是用户?组织复杂,谁来使用?一级场景:面向外部用户的核心场景二级场景:面向内部用户的核心场景团队边界:每个技术团队确认职责边界,定义场景和SLI详细SLO手册,可参见https://sre.google/workbook/implementing-slos/GoogleSREWorkbook-implementing-slos在鹅厂的大规模落地实践–SLO管理3、SLO应用–基于错误预算燃烧率的告警4、建立SLO运营机制时间线错误预算燃烧率告警02:07某业务核心SLI成功率开始波动,2:07分开始急剧下降02:08基于最近1小时且最近5分钟5倍的错误预算燃烧率触发告警,耗时1min02:11On-Call建单,耗时3min5、未来规划SLO已实现大规模接入,1000+业务场景,3000+SLO指标聚焦核心场景与指标降低SLO的配置成本基于错误预算进行决策在鹅厂的大规模落地实践–On-Call事件管理3、告警事件接入能力1、事件接入解决的问题告警匹配、收敛、升级、恢复怎么做?告警泛滥如何解决?减少告警绝对数量=告警治理告警上层接入治理=On-Call事件接入2、标准化定义渠道哪些是自动发现或是用户反馈?--数据驱动提升故障自动发现4、告警接入与响应在鹅厂的大规模落地实践–On-Call事件管理5、On-Call在研发流程中的定位核心点–面向技术团队toC用户:视频、QQ、文档等产品的用户反馈,聚类告警通知研发toB用户:云产品的客户反馈,售后/技术支持人工找研发内部用户:内部平台中台的用户反馈,内部用户人工找研发6、运行案例全渠道接入:持续观测与提升故障自动发现比例数据置信度大大提升技术团队一站式管理各类事件在鹅厂的大规模落地实践–On-Call响应管理1、On-Call保证标准化执行基础功能-业务管理、值班管理、升级策略、工单管理,保证On-Call标准化执行,覆盖MTTR全周期2、On-Call业务管理Service为最小业务管理单元在鹅厂的大规模落地实践–On-Call响应管理3、值班管理4、升级策略提升团队整体研发效率、提升故障处理效率多级别满足灵活性多层级满足多角色传统运营模式On-Call值班模式5、工单管理串联大部分On-Call能力在鹅厂的大规模落地实践

文档评论(0)

1亿VIP精品文档

相关文档