- 3
- 0
- 约2.38千字
- 约 19页
- 2024-04-02 发布于北京
- 举报
腾讯SRE质量运营体系建设与实践王晓川腾讯PCGSRE研发负责人/SRE技术专家负责质量运营、可观测、混沌工程等平台的研发工作硕士毕业于北京大学,曾任职工行、美团,深耕SRE领域十年行业背景01基于SLO与On-Call的质量运营体系02目录CONTENTS在鹅厂的大规模落地实践03总结展望0401行业背景壹行业背景理论层面众多可投入方向,如何进行稳定性建设?产品层面SLO与On-Call在业界分别有一些产品或解决方案:产品公司/来源主要领域产品特点PagerDutyPagerDutyInc.质量运营管理On-Call标杆产品OpsgenieAtlassian(Jira)研发过程管理研发管理延伸至On-CallGrafanaGrafanaLabs可视化可视化延伸至On-CallDatadogDatadogInc.可观测领域SLO管理与简化版On-CallGoogleCloudMonitorGoogleInc.可观测领域商业SLO管理SLICKFacebookInc.可观测领域内部SLO管理核心目标:科学解决产品稳定性建设问题核心路径:基于SLO与On-Call的质量运营体系02基于SLO与On-Call的质量运营体系贰基于SLO与On-Call的质量运营体系问题背景产品稳定性无法量化:无法转化为明确的组织管理目标持续性改进提升故障过程不透明不可控:受团队或个人主观因素影响较大,故障影响时间变长传统方法不具备先进性:没有应用DevOps方法论,研发与SRE团队协同不足,稳定性投入普遍积极度不高SLO管理合理:树立稳定性与功能迭代的评估关系协作:SRE与研发共同制定合理的质量目标科学:面向用户场景而非面向系统应用:错误预算燃烧告警;错误预算决策On-Call管理基于SLO与On-Call的质量运营体系产品架构产品目标面向用户:服务技术团队产品能力:参考SLO与PagerDuty,具备完整的理论与功能落地特点:内部大规模接入运营,服务所有产品线目前产品落地情况:已服务腾讯视频、QQ、腾讯文档、腾讯新闻、中台平台等几十个产品,上百个团队03在鹅厂的大规模落地实践叁在鹅厂的大规模落地实践–SLO管理1、核心场景与SLI指标2、SLO目标与错误预算目标怎么定?时间周期:28天(Google推荐)推荐目标:自动计算历史周期给出推荐目标共同制定:SRE主导,研发参与共同制定面向用户,谁是用户?组织复杂,谁来使用?一级场景:面向外部用户的核心场景二级场景:面向内部用户的核心场景团队边界:每个技术团队确认职责边界,定义场景和SLI详细SLO手册,可参见https://sre.google/workbook/implementing-slos/GoogleSREWorkbook-implementing-slos在鹅厂的大规模落地实践–SLO管理3、SLO应用–基于错误预算燃烧率的告警4、建立SLO运营机制时间线错误预算燃烧率告警02:07某业务核心SLI成功率开始波动,2:07分开始急剧下降02:08基于最近1小时且最近5分钟5倍的错误预算燃烧率触发告警,耗时1min02:11On-Call建单,耗时3min5、未来规划SLO已实现大规模接入,1000+业务场景,3000+SLO指标聚焦核心场景与指标降低SLO的配置成本基于错误预算进行决策在鹅厂的大规模落地实践–On-Call事件管理3、告警事件接入能力1、事件接入解决的问题告警匹配、收敛、升级、恢复怎么做?告警泛滥如何解决?减少告警绝对数量=告警治理告警上层接入治理=On-Call事件接入2、标准化定义渠道哪些是自动发现或是用户反馈?--数据驱动提升故障自动发现4、告警接入与响应在鹅厂的大规模落地实践–On-Call事件管理5、On-Call在研发流程中的定位核心点–面向技术团队toC用户:视频、QQ、文档等产品的用户反馈,聚类告警通知研发toB用户:云产品的客户反馈,售后/技术支持人工找研发内部用户:内部平台中台的用户反馈,内部用户人工找研发6、运行案例全渠道接入:持续观测与提升故障自动发现比例数据置信度大大提升技术团队一站式管理各类事件在鹅厂的大规模落地实践–On-Call响应管理1、On-Call保证标准化执行基础功能-业务管理、值班管理、升级策略、工单管理,保证On-Call标准化执行,覆盖MTTR全周期2、On-Call业务管理Service为最小业务管理单元在鹅厂的大规模落地实践–On-Call响应管理3、值班管理4、升级策略提升团队整体研发效率、提升故障处理效率多级别满足灵活性多层级满足多角色传统运营模式On-Call值班模式5、工单管理串联大部分On-Call能力在鹅厂的大规模落地实践
您可能关注的文档
- 案例-何永成-京东模块化运维体系建设.pdf
- 案例-去哪儿网硬件自动化运维体系介绍.pdf
- 郭旻欣-江苏电信 IT 运维转型之 SRE 体系建设实践.pdf
- 郭宁-广东移动业务支撑系统 AIOps 应用实践.pdf
- 何勉-BizDevOps - 驾驭数字化力量的必由之路.pdf
- 侯健-宏时数据.pdf
- 吉翔-B站多活架构解析、最佳实践与管控治理.pdf
- 纪克丁云外到云上:招行信用卡系统上云实践.pdf
- 柯小川-证券老兵自述:券商规模化敏捷避坑指南.pdf
- 蓝小明低门槛高可用:招行基于 OAM 的云原生应用管理实战.pdf
- 03-2 2025年度民主生活会征求意见座谈会主持词.docx
- 03-1 2025年度民主生活会主持讲话提纲.docx
- 02-1 会前学习-《县以上党和国家机关党员领导干部民主生活会若干规定》相关要求.docx
- 在2025年度民主生活会上的总结讲话三篇.docx
- 在2025年度民主生活会上的总结讲话三篇 (3).docx
- 市委宣传部2025年度民主生活会查摆问题整改方案两篇.docx
- 在市行政审批和政务信息管理局机关2026年全体干部政绩观教育大会上的党课讲稿.docx
- X市应急管理局2026年度安全生产监督检查计划.docx
- 2025年度民主生活会领导班子对照检查材料(五个带头)三篇.docx
- 2025年度民主生活会“五个带头”个人对照检查材料三篇.docx
最近下载
- 幼儿彩色描红:数字描红③.doc VIP
- T_HBYY 0066-2024 中药材机械化生产技术规程 柴胡—油菜间作.docx VIP
- 养育照护策略与行动--解读世界卫生组织《儿童早期发展养育照护框架》.docx VIP
- 2025年互联网营销师用户召回中的用户满意度(NPS)与净推荐值分析专题试卷及解析.pdf VIP
- 2025年素质测评考试题库及答案.doc VIP
- 山东省房屋建筑和市政工程施工图设计文件审查要点(2024年版) 第一册 房屋建筑.docx VIP
- 2024市场监管知识培训:价格法知识及价格执法典型案例培训课件.pptx
- T_HBYY 0068-2024 中药材机械化生产技术规程 半夏.docx VIP
- 小学三年级数学除法竖式计算题及答案(300道题).pdf VIP
- 日产300吨环形双膛石灰竖窑方案.doc
原创力文档

文档评论(0)