网站大量收购独家精品文档,联系QQ:2885784924

《蘑菇街背后系统的稳定性保障实践》.pdf-2019-02-12-13-46-00-077.docx

《蘑菇街背后系统的稳定性保障实践》.pdf-2019-02-12-13-46-00-077.docx

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ArchSummit全球架构师峰会 深圳站2016 蘑菇街背后系统稳定性保障实践 About Me 普通程序猿 12年-至今 蘑菇街,花名苏武 经历数次蘑菇街系统改造,多为打杂 目前专注于系统稳定性相关工作 提纲 往年大促遇到的问题 问题的总结和思考 新思路下双11稳定性备战流程 总结 往年大促遇到的问题 CASE1: 13年双11当天14:20,一个活动sql导致蘑菇街主数据库慢sql急剧增加,前端访问hang住,交易下跌80%1个小时 CASE2: 14年双11大促23:50后,访问量过大雪崩,全站不可访问15分 钟 CASE3: 15年321大促零点使用优惠券,更新使用数导致数据库行级锁问题,下单下跌80%10分钟 CASE4: 15年321大促零点下单数据库写入量过大,导致数据库hang住,下单下跌100%15分钟 问题的总结 当前的系统架构应对大促有风险(CASE1,CASE3) 当前的系统相互之间的依赖和调用关系不清楚(CASE1,CASE3) 对大促系统峰值没有有效的评估(CASE2,CASE4) 对系统能支撑多少峰值未知(CASE2) 真出了问题,不能短时间内有效的应对 缺少完整的稳定性保障方法论,混乱 问题的思考 问题处理的原则 – 解决具体问题,抽象问题后解决一类问题 – 有沉淀,有流程,不能乱 – 工具化,系统化代替人工操作,提高效率 – 最终总结方法论,作为指导思想 新思路下双11稳定性备战流程 系统容量评估 预案整理 系统架构梳理 大促保障 开关,限流降级 全链路压测 新思路下双11稳定性备战流程 系统峰值评估 系统架构梳理 ? 根据业 ? 架构风 务目标 险梳理 推导 ? 系统依 ? 主链路: 赖梳理 商品, ? 系统强 交易, 弱依赖 下单 判断  全链路压测 打通蘑 菇街电 商主链 路 生产环 境压测 根据大 促业务 模型来 准备压 测数据  开关,限流降级准备 统一开 关系统 统一限 流降级 系统 开关处 理弱依 赖 限流保 护系统 不压挂  预案整理 开关, 限流降 级操作 手册 能预见 的问题 处理手 册 跨部门 通告流 程 新思路下双11稳定性备战流程 系统峰值评估 系统架构梳理 ? 根据业 ? 架构风 务目标 险梳理 推导 ? 系统依 ? 主链路: 赖梳理 商品, ? 系统强 交易, 弱依赖 下单 判断  全链路压测 打通蘑 菇街电 商主链 路 生产环 境压测 根据大 促业务 模型来 准备压 测数据  开关,限流降级准备 统一开 关系统 统一限 流降级 系统 开关处 理弱依 赖 限流保 护系统 不压挂  预案整理 开关, 限流降 级操作 手册 能预见 的问题 处理手 册 跨部门 通告流 程 系统峰值评估 业务目标:pv,uv,gmv,客单价,笔单价等 系统主要需要的:下单的峰值,支付的峰值 峰值推导方法1: – 下单峰值=天订单数/一天正常交易时段 * 大促峰值影响系数 =gmv/笔单价/8小时*8 – 下单峰值=35,000,000/70/28800*8=140 峰值推导方法2: – 下单峰值=(本次大促gmv/上次大促gmv)*上次大促峰值*(本次大 促转化率/上次大促转化率) – 下单峰值 =(3,000,000,000/2,000,000,000)*120*(0.30/0.25)=216 新思路下双11稳定性备战流程 系统峰值评估 系统架构梳理 全链路压测 ? 根据业 ? 全局架 ? 打通蘑 务目标 构风险 菇街电 推导 梳理 商主链 ? 主链路: ? 系统依 路 商品, 赖梳理 ? 生产环 交易, ? 系统强 境压测 下单 弱依赖 ? 根据大 判断 促业务 模型来 准备压 测数据  开关,限流降级准备 统一开 关系统 统一限 流降级 系统 开关处 理弱依 赖 限流保 护系统 不压挂  预案整理 开关, 限流降 级操作 手册 能预见 的问题 处理手 册 跨部门 通告流 程 系统架构梳理 全局架构风险梳理 系统上下游梳理 系统内部梳理  双机房流量比例确定 跨机房专线带宽准备 基础服务架构,容量梳理 上下游系统依赖梳理 确定对上游系统调用的来源和比例,确定对下游系统的调用比例 标识出对下游系统的强弱依赖 系统内部风险梳理:如设计问题,数据热点问题 性能问题梳理 系统监控埋点梳理 线程池隔离梳理 系统架构梳理 难点 – 系统上下游依赖复杂 – 系统间请求调用比例不好计算 – 强弱依赖怎么判断,判断的标准 解决方案 – 全链路监控系统 – 强弱依赖系统,自动判断 全链路监控系统 单次请求追踪 依赖统计 实现细节 TraceID:全局唯一,接收请求最上层生成,透传到底;组成: ip+ 进程id+随

您可能关注的文档

文档评论(0)

170****0236 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档