看腾讯运维应对“岁照片全民怀旧”事件的方案,你一定不后悔!.docxVIP

看腾讯运维应对“岁照片全民怀旧”事件的方案,你一定不后悔!.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
看腾讯运维应对“18岁照片全民复古”大事的方案,你肯定不懊悔! 如上节所述,我们梳理出相册核心链路,常用梳理过程有几种: 通过抓包方式确定链路模块 通过设备上报的主被调数据确定调用链路 名字服务中猎取相关的调用链数据。 通过全链路数据汇总出相关的链路。 2)压测: 定期对整条链路做压测,压测手段有异地调度压测,或单机压测,通过压测找出链路内存在瓶颈的模块,准时修正链路模型。 3)凹凸负载处理: 依据压测容量数据,安排设备扩容。负载较低的模块设备进行缩容下线以节省成本。 3.1.PNG 容量应急措施 但是这里的问题是显而易见的:以上常规性的工作,只能发觉常规场景下内部存在的瓶颈。像18岁照片这种特殊场景(用户大量读取空间相册,猎取冷数据),无法通过常规压测检测出来问题, 这就需要一系列的机制来处理 1) 监控和容量弹性机制: 通过IaaS层监控对系统的基础特征进行监控,(如CPU负载,出入流量),当模块容量消灭特别时,弹性扩容机制需要介入处理,进行扩容。 如何快速支持短时间扩容上千台设备呢?不得不引见一下腾讯SNG的织云运维理念。 如上文所述,我们的设备被安排到不同的“业务模块”,而每一个模块有如下的属性: 1) 包:业务处理规律文件包,包含业务包与基础包。 2) 配置:包含业务包要使用到的各种配置 3) 权限:包含支撑业务包正常运转时需要的数据库、内部鉴权系统等权限 4) 测试工具:包含业务包启动后,能否接入现网的测试标准 织云提倡的自动化理念是:标准化 - 配置化 - 自动化,让企业的常用操作固化成流程工具。不依靠简约过期的文档,不依靠简约流失的人的阅历。 6.jpg 参考持续交付的准绳“为软件的发布创建一个可反复且牢靠的过程”,运维团队为了处理人肉操作阅历差异的难题,将运维操作通过流程DIY编排力量,实现标准操作的固化。“18岁照片”活动扩容,任何一个运维人员只需要执行QQ相册的扩容功能即可实现容量扩展,而织云流程会自动化的完成整个服务部署和上线的操作。(如下图) 3.jpg 柔性业务架构 前面我们说过,相册在当天的峰值下载量涨了4倍,且多是访问冷数据,但在短时间内无法筹集到4倍的资源,业务是如何应对的呢,在保证用户核心体验不受影响的前提下,我们接受了一些柔性手段。 回顾一下,当时我们在容量不足时遇到以下的问题,导致短时间内部分图片拉取耗时过长,影响用户体验。 1) 存储压力过大。 2) 本身模块压力过大。 针对存储压力过大的问题,我们接受了以下几个手段来降低业务负载: 1) 存储手段 a. 图片适配优化索引策略削减存储压力 削减拉取照片分批次数,降低后端存储处理压力。分批拉取照片列表数量添加3倍。交互次数直接下降近2/3。 b. 图片上传添加本地缓存空间削减存储高负载形成的用户上传失败 调整上传规律模块,从原来的本地内存缓存优化为内存+本地磁盘缓存,通过添加本地缓存空间削减后端存储高负载对用户侧上传图片/视频的影响。虽然底层存储高负载了,但是用户还是可以不受底层影响,将图片通过接入上传到规律层缓存。存储压力释放后即可将规律层缓存的数据上传到存储层。 c. 降低图片规章,削减图片下载流量: 一张图片分为小、中、大三种规格,为了节省存储容量中图是通过图片压缩模块实时压缩前往给用户的,小图和大图真实存储在存储模块。为了降低图片下载的流量压力,我们调整了适配策略,用户访问大图,适配直接前往小图的url,削减了图片压缩规律,并且降低了带宽。调整后图片下载带宽对比如下: d. 上传不检查相册有效性,削减存储索引访问量: 正常情况,在用户上传图片时到相册时,会检查相册能否存在,如相册已被删除,则直接报错。柔性策略跳过相册有效性检查,直接上传图片到后端存储,降低索引访问量,降低索引模块负载。 同时在业务规律上,也做了以下的柔性措施: a. 核心模块启用过载爱护机制: 推断单机cpu使用率超过80%时,会自动丢弃多余的恳求,以保证业务规律模块在大量用户恳求场景下不雪崩。 b. 柔性关闭非核心业务功能削减业务本身负载 每张图片在高速存储会存储一份位相信息,图片裁剪时用于标示一张图片核心元素的位置。禁用此规律后,用户看到的图片无人脸中心点, 客户端裁剪可能不精确?????。 关闭用户删除标记,适配图片适配前会事后检测图片能否被删除,如已被删除则不会前往对应的图片列表。删除标记规律也会频繁和索引模块交互,高峰期时会占用大量计算资源。禁用此规律,用户访问相册时会看到已被删除的图片,但是会标记为灰色已删除。 调度:相册业务分布在三地,每地分别承载了约33%的用户,某地恳求过高时,我们可以调度用户至其他容量相对较低的地域。 5.png 小结 从“18岁照片全民复古”热点社交大事可以看到,事发过程中留给运维的时间相当少,只要严格贯彻“养兵千日用兵一时”

文档评论(0)

duanbingbing + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档