- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ArchSummit全球架构师峰会
深圳站2016
蘑菇街背后系统稳定性保障实践
About Me
普通程序猿
12年-至今 蘑菇街,花名苏武
经历数次蘑菇街系统改造,多为打杂
目前专注于系统稳定性相关工作
提纲
往年大促遇到的问题
问题的总结和思考
新思路下双11稳定性备战流程
总结
往年大促遇到的问题
CASE1: 13年双11当天14:20,一个活动sql导致蘑菇街主数据库慢sql急剧增加,前端访问hang住,交易下跌80%1个小时
CASE2: 14年双11大促23:50后,访问量过大雪崩,全站不可访问15分
钟
CASE3: 15年321大促零点使用优惠券,更新使用数导致数据库行级锁问题,下单下跌80%10分钟
CASE4: 15年321大促零点下单数据库写入量过大,导致数据库hang住,下单下跌100%15分钟
问题的总结
当前的系统架构应对大促有风险(CASE1,CASE3)
当前的系统相互之间的依赖和调用关系不清楚(CASE1,CASE3)
对大促系统峰值没有有效的评估(CASE2,CASE4)
对系统能支撑多少峰值未知(CASE2)
真出了问题,不能短时间内有效的应对
缺少完整的稳定性保障方法论,混乱
问题的思考
问题处理的原则
– 解决具体问题,抽象问题后解决一类问题
– 有沉淀,有流程,不能乱
– 工具化,系统化代替人工操作,提高效率
– 最终总结方法论,作为指导思想
新思路下双11稳定性备战流程
系统容量评估
预案整理 系统架构梳理
大促保障
开关,限流降级 全链路压测
新思路下双11稳定性备战流程
系统峰值评估 系统架构梳理
? 根据业
? 架构风
务目标
险梳理
推导
? 系统依
? 主链路:
赖梳理
商品,
? 系统强
交易,
弱依赖
下单
判断
全链路压测
打通蘑
菇街电
商主链
路
生产环
境压测
根据大
促业务
模型来
准备压
测数据
开关,限流降级准备
统一开
关系统
统一限
流降级
系统
开关处
理弱依
赖
限流保
护系统
不压挂
预案整理
开关,
限流降
级操作
手册
能预见
的问题
处理手
册
跨部门
通告流
程
新思路下双11稳定性备战流程
系统峰值评估 系统架构梳理
? 根据业
? 架构风
务目标
险梳理
推导
? 系统依
? 主链路:
赖梳理
商品,
? 系统强
交易,
弱依赖
下单
判断
全链路压测
打通蘑
菇街电
商主链
路
生产环
境压测
根据大
促业务
模型来
准备压
测数据
开关,限流降级准备
统一开
关系统
统一限
流降级
系统
开关处
理弱依
赖
限流保
护系统
不压挂
预案整理
开关,
限流降
级操作
手册
能预见
的问题
处理手
册
跨部门
通告流
程
系统峰值评估
业务目标:pv,uv,gmv,客单价,笔单价等
系统主要需要的:下单的峰值,支付的峰值
峰值推导方法1:
– 下单峰值=天订单数/一天正常交易时段 * 大促峰值影响系数
=gmv/笔单价/8小时*8
– 下单峰值=35,000,000/70/28800*8=140
峰值推导方法2:
– 下单峰值=(本次大促gmv/上次大促gmv)*上次大促峰值*(本次大
促转化率/上次大促转化率)
– 下单峰值
=(3,000,000,000/2,000,000,000)*120*(0.30/0.25)=216
新思路下双11稳定性备战流程
系统峰值评估 系统架构梳理 全链路压测
? 根据业
? 全局架
? 打通蘑
务目标
构风险
菇街电
推导
梳理
商主链
? 主链路:
? 系统依
路
商品,
赖梳理
? 生产环
交易,
? 系统强
境压测
下单
弱依赖
? 根据大
判断
促业务
模型来
准备压
测数据
开关,限流降级准备
统一开
关系统
统一限
流降级
系统
开关处
理弱依
赖
限流保
护系统
不压挂
预案整理
开关,
限流降
级操作
手册
能预见
的问题
处理手
册
跨部门
通告流
程
系统架构梳理
全局架构风险梳理
系统上下游梳理
系统内部梳理
双机房流量比例确定
跨机房专线带宽准备
基础服务架构,容量梳理
上下游系统依赖梳理
确定对上游系统调用的来源和比例,确定对下游系统的调用比例
标识出对下游系统的强弱依赖
系统内部风险梳理:如设计问题,数据热点问题
性能问题梳理
系统监控埋点梳理
线程池隔离梳理
系统架构梳理
难点
– 系统上下游依赖复杂
– 系统间请求调用比例不好计算
– 强弱依赖怎么判断,判断的标准
解决方案
– 全链路监控系统
– 强弱依赖系统,自动判断
全链路监控系统
单次请求追踪
依赖统计
实现细节
TraceID:全局唯一,接收请求最上层生成,透传到底;组成: ip+ 进程id+随
您可能关注的文档
- 《百度搜索系统的PaaS架构设计和实践》.pdf-2019-02-12-13-45-44-638.docx
- 《百度贴吧性能优化之路》.pdf-2019-02-07-22-46-48-246.docx
- 《百度贴吧性能优化之路》.pdf-2019-02-10-13-50-03-168.docx
- 《电子工程专辑》薪酬和职业发展调查.pdf-2019-02-10-13-49-54-765.docx
- 《读心选“才”》课程讲义.pdf-2019-02-04-23-41-16-163.docx
- 《干法》稻盛和夫.pdf-2019-02-13-13-27-03-150.docx
- 《高速发展的饿了么订单系统架构演进》.pdf-2019-02-12-13-46-11-810.docx
- 《管理学》学习精要(仅供学习参考).pdf-2019-02-04-23-41-23-472.docx
- 《管理学》学习精要(仅供学习参考).pdf-2019-02-07-22-47-06-542.docx
- 《管理学》学习精要(仅供学习参考).pdf-2019-02-10-13-50-55-819.docx
- 2010-2023历年宁夏银川市育才中学高二上期第一次月考历史试卷(带解析).docx
- 2010-2023历年宁夏银川育才中学高二上期期中考试生物卷(带解析).docx
- 提高鼻饲胃管规范率.pptx
- 2010-2023历年宁夏银川市育才中学高二上期期中历史试卷(带解析).docx
- 北师版六年级上册数学精品教学课件 第四单元 4.4.1 列方程解决百分数问题.ppt
- 2010-2023历年宁夏青铜峡市九年级联考数学试卷(带解析).docx
- 提高食堂管理水平.pptx
- 2010-2023历年宁夏银川市唐徕回民中学高三月考生物试卷(带解析).docx
- 2010-2023历年宁夏银川市唐徕回民中学高一月考历史试卷(带解析).docx
- 2010-2023历年宁夏银川市初二上学期期末考试英语卷.docx
文档评论(0)