系统稳定一印象.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
系统稳定一印象

1 淘宝稳定性实践 —— 淘宝-小邪 1 系统稳定性第一印象 2 监控 简化系统依赖 增强代码容错能力 增加弱依赖开关 增加强依赖的流控 3 用户流量固定机房 2 1 3 同城机房容灾 异地机房容灾 A为前台应用,强依赖B B和C为服务应用 ABC和DB都为集群 主DB提供两个机房读写 4 5 备库不对外服务 提供只读服务 机房2故障 4 切DNS流量 机房1故障 5 切DNS流量 切DB 机房1恢复 6 机房3故障 7 切DNS流量 主站整个城市故障 8 主站机房之间断网 9 ? 1、同城多路光纤保证 2、切流量 主站机房1的B集群系统故障 10 A对B的调用自动切换到机房2 11 所有机房的B系统都发生故障 所有机房的B系统故障 12 如果B系统是核心业务必经路径 等待修复吧 如果是发布引起的 则立即回滚上一个版本 主站机房1的C集群系统故障 13 C的调用自动切换到机房2 14 所有机房的C系统故障 所有机房的C系统故障 15 模块的线程保护自动启动 有效防止A模块因为调用C超时导致故障 模块线程保护(stable switch) A的主线程为jboss的ajp线程共200个 假设给调用B的模块分配最大50个线程 假设给调用C的模块分配最大10个线程 那么C出现故障的时候,C的故障将控制在这堵塞的10个线程里,而不会扩散到其他线程,正常逻辑得以继续 16 stable switch console 17 机房1的请求流量超过单系统负载 18 1、TDOD (TMD) 2、Stable Switch 机房1的请求流量超过单系统负载 TDOD (TMD) 利用对机器的负载做出格挡 根据实时收集的信息分析对IP流量进行拦截 Stable Switch 利用线程保护机制,让少量线程用来返回超过的流量 19 接下去 介绍系统的稳定性预防系统 CSP系统 20 CSP系统的组成 21 CSP对系统的运行数据非常清楚 22 A调用C的响应时间10ms变成了500ms 访问A的流量增加1.5倍 系统负载、CPU、内存如何了? 运行时监控-实时得到系统运行的信息 运行时信息的透明化:监控报警 23 问题的自动排查 CSP对系统的运行数据非常清楚 24 B:CSP最了解我了 我每天忙着工作,保证没有小三, 那件事情可能是C干的 C: CSP最了解我了,如果是我干的, 我就不会让你知道 容量规划-获取系统能力数据 25 1、要搞活动了,流量可能要增加2倍以上,不知道A是否能撑住,B和C是否也能撑住? 2、A系统的QPS怎么今天突然下跌到原来的一半了? 容量规划-定时得到系统的容量信息 26 知道系统现状能力 预测未来业务需求 何时增加服务器 何时做性能优化 27 问题点 容量规划 28 CSP对A,B,C的能力非常清楚 知道何时增加机器,何时进行系统优化 实时知道系统的依赖关系 依赖关系生成 强弱关系验证 29 依赖降级 30 CSP知道A一定会调用B和C 并且知道C挂了对A不影响 总结 容灾和稳定性 各种故障情况下的系统化处理 一个保障稳定性系统的组成 容量规划、依赖降级、运行时监控 能力数据、静态数据、动态数据 31 系统建设初期需要考虑的3点 系统可被监控 线程,连接池,远程调用,系统信息,重要接口执行数据 重要的操作环节记录日志 系统可被调试 配置等信息可以被dump出来 远程服务的接口容易被调试 系统可被容错 所有远程接口的调用均有流量控制 所有远程接口的调用返回数据都是不可信任的 32 接下去,大家讨论时间 稳定的系统架构 系统的容量规划 系统的运行时监控 系统的依赖和降级 33 小凡 (速度性能优化) 小赌 (稳定性相关) 小邪 (稳定性和性能) 34 讨论时间 35 36

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档