- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
新浪微博稳定性经验谈洪小军 @XiaoJunHong邀请嘉宾:唐福林 @唐福林新浪微博 @微博平台架构新浪微博稳定性经验谈什么是稳定的系统?少出问题快速解决清楚系统健康状况趋势新浪微博稳定性经验谈影响稳定性的因素依赖的资源、服务异常网络、硬件故障流量突增代码bug各种“坑”…….新浪微博稳定性经验谈存在不可避免的影响稳定性的因素,但是又需要保证系统的稳定性,怎么做到?新浪微博稳定性经验谈构建稳定的系统?少出问题:Design For Failure快速解决清楚系统健康状况趋势新浪微博稳定性经验谈Design For Failure分层隔离(分离核心和非核心接口、服务化等)SLA保证(资源、服务等各层面保证)保证代码质量(最佳设计模式、测试、Code Review)容灾设计(多IDC、多点部署)容量规划(保持一定富余)完善的监控报警机制(异常监测及其流量增长预警等)灰度发布……新浪微博稳定性经验谈分层隔离 – 分层模型DNS七层(Nginx、Varnish…)应用层(Tomcat、Jetty…)服务层中间件资源层(Cache、Storage…)新浪微博稳定性经验谈分层隔离 – 隔离目标和原则保证异常出现时影响范围可控按主要接入方隔离按业务隔离按功能核心程度隔离新浪微博稳定性经验谈分层隔离 – 隔离方式物理隔离 | 逻辑隔离读写隔离隔离成本DNS低七层中应用层中服务层|中间件中资源层高新浪微博稳定性经验谈SLA保证服务提供方:服务对外的SLA承诺服务消费方:对依赖资源或服务的SLA要求新浪微博稳定性经验谈SLA保证 – 超时控制依赖的资源或服务超时控制异步调用超时控制新浪微博稳定性经验谈SLA保证 – 谨慎重试异常场景下重试可能导致系统持续恶化对于写入场景存在数据重入风险新浪微博稳定性经验谈SLA保证 – 容量规划每季度至少一次例行性评估重大活动前容量评估监控系统黄色预警日常30%以上冗余资源或系统架构调整时需要重点关注新浪微博稳定性经验谈SLA保证 – Failover策略服务降级:保核心功能快速失败:保证不卡死流量限制:保正常请求新浪微博稳定性经验谈SLA保证超时控制谨慎重试容量规划Failover策略新浪微博稳定性经验谈不能保证系统方方面面都能自动Failover,但是又需要保证系统的稳定性,怎么做到?新浪微博稳定性经验谈构建稳定的系统?少出问题:Design For Failure快速解决:容灾预案清楚系统健康状况趋势新浪微博稳定性经验谈容灾预案IDC容灾(切换到其它IDC)限流(拒绝超出或异常的请求)降级(降级有问题资源、保核心功能)紧急快速扩容……新浪微博稳定性经验谈所做这些都是有效的吗?是否有遗漏?在测试环境下已经做了充分测试!线上呢?等待异常出现时来验证系统是否经得起考验?OR新浪微博稳定性经验谈在线容灾演练 – Touchstone系统确认碰撞时安全气囊是否开启(Design For Failure)事后有应对措施(容灾预案)保证影响在预期可控的范围之内!新浪微博稳定性经验谈构建稳定的系统?少出问题:Design For Failure快速解决:容灾预案清楚系统健康状况趋势:在线容灾演练新浪微博稳定性经验谈Touchstone系统介绍引流线上真实流量异常场景搭建和模拟容灾预案预演验证系统运行稳定性状况ClientServerResource新浪微博稳定性经验谈引流线上真实流量通过tcpcopy引流线上真实流量到演练服务器图片来源:tcpcopy官方文档新浪微博稳定性经验谈异常场景搭建和模拟资源提供方搭建真实异常场景使用linux tc模拟依赖资源和服务异常场景接口字节码形式注入sleep代码模拟接口慢的场景231ClientServerResource新浪微博稳定性经验谈容灾预案预演模拟异常的场景运维人员做相应预案操作验证系统运行稳定性状况新浪微博稳定性经验谈怎么判断系统是稳定的?接口层面分析返回码中4xx、5xx等比例响应时间是否在正常范围内是否满足SLA要求返回包大小(辅助手段)日志分析(辅助手段)……最终用户层面前端页面展示新浪微博稳定性经验谈Touchstone系统 – 实时数据展示新浪微博稳定性经验谈Touchstone系统 – 报表输出新浪微博稳定性经验谈通过输出的异常数据,怎么分析系统问题点?新浪微博稳定性经验谈异常影响程度叠加放大描述:某组资源延迟400ms,但是接口整体持续延迟2s串行化操作?新浪微博稳定性经验谈功能相关的接口同时受到影响描述:某资源异常,依赖此资源的功能都受较大影响依赖性的影响!思考:分层隔离中被隔离开的功能是否受到影响?是否存在非核心资源影响核心功能的情况?期望的SLA保证是否都生效?新浪微博稳定性经验谈大范围大量接口受到影响描述:某资源异常时,tomcat中大量接口出现50
文档评论(0)