从“支付宝故障”说起:我们的互联网为何如此脆弱-从“支付宝故障”说起:我们的互联网为何如此脆弱-.pdfVIP

从“支付宝故障”说起:我们的互联网为何如此脆弱-从“支付宝故障”说起:我们的互联网为何如此脆弱-.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从“支付宝故障”说起:我们的互联网为何如此脆弱-从“支付宝故障”说起:我们的互联网为何如此脆弱-

——————————————————————云客网 您网站的流量加油站 从“支付宝故障”说起:我们的互联网为何如此脆弱? 最近互联网也是非常有意思,接二连三的发生故障,让我们一起先回顾一下。 2015年5 月11号晚上21点左右开始,网易的网易新闻、云音乐、易信、 有道云笔记等移动应用均无法正常刷新,网易名下的游戏也全线瘫痪。故障原因: 骨干网络遭受攻击。 2015年5 月27 日下午,部分用户反映其支付宝出现网络故障,账号无法登 录或支付。故障原因:光纤挖断。影响时长:4 个小时 2015年5 月28 日上午11:09,携程官网及APP 出现故障无法打开,到28 日23:29全面恢复,整个过程耗费12 个多小时。故障原因:误操作。影响时长: 12个小时左右 2015年6 月5 日今日头条网首页和APP 都无法访问,直接提示500错误。 故障原因:不明影响时长:30分钟左右。 SEO排名 / ——————————————————————云客网 您网站的流量加油站 2015年6 月15 日12 点30分知乎网无法打开,直接提示 【服务器提出了一 个问题】错误,在 13 点45分左右的时候,知乎页面恢复正常。故障原因:机房 故障影响时长:60分钟左右 到底是怎么了,是什么让我们的互联网业务如此脆弱?真的是运营商老是在 后面干坏事?还是我们的系统架构不给力?还是我们运维能力真的很弱?如果广义 的去看这个,我还会把它归结成运维问题。不过对于以上的故障,从运维的角度 来说,我依然会说官方结论不够专业,希望内部不是这样的哈。 1、网易说骨干网收到网络攻击影响业务,貌似那天好像也就网易业务受到 影响? 2、光纤挖断影响四个小时,从这么核心的业务来说,第一原则一定是恢复 业务,我想支付宝即使没做双活,肯定也会有一个可用的备份中心,为什么没切 过去了?一定是内部出了乱子。不过阿里流弊的地方,负面的事情他可以变成正 面,他们把5.27变成了技术保障日,大肆宣传。 3、携程事件,我之前写过一篇文章 【携程事件:运维债务的深度分析和解 决方案】,不详谈了。 4、今日头条,500 内部错误,这条新闻可以让自己上头条,但也没有正式 的给出解释。从500错误的恢复时间来说,有点长,500错误是十分好定位,我 的怀疑是数据库的压力不够,导致后面的扩容变更,也只有数据库分库分表扩容 时间需要这么长了。另外头条君的首页上直接给个500 的错误,技术表述,十分 SEO排名 / ——————————————————————云客网 您网站的流量加油站 的不友好,建议你服务降级啊,推个大众版的新闻,不做个性化推荐,这个可以 做一个缓存就可以解决的。 5、知乎故障,直接说是机房故障,太简单了,但我觉得最大的可能应该是 Tengine 后端服务超时导致的,而非简单的一个机房故障引起。 在每一次故障发生的时候,其实都是伤害了我们的用户,内部的表述就是可 用性或者质量。因此我们必须要足够的重视,更需要我们把它变成宝贵的经验。 那到底什么是可用性和可靠性?影响可用性的因素有哪些?运维如何提高可用性? 等等。 一、什么是可用性和可靠性 可靠性是在给定的时间间隔和给定条件下,系统能正确执行其功能的概率。 可用性是指系统在执行任务的任意时刻能正常工作的概率。先来看一些指标定义: 1.MTBF——全称是Mean TimeBetweenFailure,即平均无故障工作时间。 就是从新的产品在规定的工作环境条件下开始工作到出现第一个故障的时间的 平均值。MTBF 越长表示可靠性越高正确工作能力越强。 2.MTTR——全称是Mean Time ToRepair,即平均修复时间。是指可修复产 品的平均修复时间,就是从出现故障到修复中间的这段时间。MTTR越短表示易 恢复性越好。 3.MTTF——全称是Mean Time ToFailure,即平均失效时间。系统平均能够 正常运行多长时间,才发生一次故障。系统的可靠性越高,平均无故障时间越长。 可用性Availability MTBF/ (MTBF+MTTR),一般我们都是用N 个9来表 达系统可用性,用宕机时长来说更好理解,如果以全年为周期(24*365 8760个 小时),3个9(9

您可能关注的文档

文档评论(0)

tazhiq2 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档