吴海洋-腾讯IEG SRE应急响应实践.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

腾讯IEGSRE应急响应实践

吴海洋

2025-04

吴海洋

腾讯IEG公共平台SRE负责人

腾讯IEG公共平台SRE负责人,高级工程师,2013年加入腾讯,先后

担任逆战、QQ飞车等多款重点端、手游运维负责人。目前专注游戏

平台、公共组件平台SRE支撑体系建设等相关工作。

目录/CONTENTS

1游戏应急响应的目标和痛点

2基于蓝鲸基座的应急响应方案建设

3执行应急响应的思考和经验

4总结和展望:故障的可控

游戏应急响应的

目标和痛点

腾讯游戏的特点

现状:

•研发团队:自研和代理

•游戏架构:模块多差异大,发行区域:国内和海外,全球发行

•支撑平台:BG内、BG外平台服务

•规模大:单游戏体量和整体体量

特点:

•上下游涉及服务、人员多(多组织,多角色)

•异构性非常强

•运营环境复杂

GOPS全球运维大会暨研运数智化技术峰会2025·深圳站

腾讯游戏应急响应的目标

告警

环节故障发现故障诊断故障恢复故障复盘

故障发生开始处理

告警时间响应时间定位时间操作时间

关键场景1min5min15min

其他场景5min15min30min

GOPS全球运维大会暨研运数智化技术峰会2025·深圳站

腾讯游戏应急响应的痛点

告警

环节故障发现故障诊断故障恢复故障复盘

故障发生开始处理

告警时间响应时间定位时间操作时间

目标1~5min5~15min15~30min

关键监控经验预案

游戏异构、场景全人员多、信息有效信息资源约束、互快速执行

痛点多、链路长、准乱、有依赖高效协同相影响、衍生

环境复杂、跨组故障

件平台….??….?

GOPS全球运维大会暨研运数智化技术峰会2025·深圳站

为了应对故障,我们曾经做过的尝试

告警优化:

•基础设施:CPU、内存、磁盘、IO、网络…

•业务服务:调用量、成功率…

•用户体验:登录、下载、更新、支付、单局、卡顿…

•综合SLI/SL

文档评论(0)

150****8957 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档