云机房数据中断集锦.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
云机房数据中断集锦

云机房数据中断集锦 为了帮助企业避免在云服务中出现故障,美国《NetworkWorld》专门列出了全球众多网站曾经历过的十个最严重的云服务中断故障以及我们能够从中吸取的教训。 ? 严重的云中断1:亚马逊Web服务中断。 ? 免除乏味的网络维护工作是在云中做生意的主要卖点。但这种服务的缺点是:当云厂商例行性改变配置让你的业务中断的时候,用户会束手无策。 ? 这是许多亚马逊Web服务用户在今年4月经历的事情。当时,亚马逊北弗吉尼亚州的数据中心出现故障,完全无法使用。 ? 这个故障是在网络升级期间发生的。当时,信息寻找可用的设备把自己作为备份嵌入到这些设备中时,一个错误路线的通讯移动把一连串的亚马逊EBS(弹性块存储)通讯量发送到一个重新镜像的风暴。这是一种反常的现象。这引起了一系列事件,最终导致亚马逊在美国东部地区的许多服务中断。 ? 这个故障持续了大约四天时间。但是,在许多企业陷入困境之中的同时,Netflix等其它公司的排除了故障。生存的关键是什么?设计系统的时候就要考虑到这种类型的故障。 ? Netflix工程师在题为“Netflix从亚马逊Web服务中断故障中吸取的教学”的博客中称,我们的架构避免使用EBS作为我们的主要数据存储服务。我们依靠的SimpleDB、S3和Cassandra服务从而没有受到这次中断事故的影响。无国家的服务和可用地区的数据的多个冗余热拷贝是避免亚马逊Web服务云故障的关键。 ? 考虑一下你必须是Netflix规模的企业才能保证安全吗?再考虑一下。帮助开发人员把通讯与其Web应用程序集成在一起的Twilio公司利用亚马逊的EC2服务托管其核心的基础设施。尽管如此,4月份的中断故障对它的稳定性几乎没有影响。 ? Twilio共同创始人和首席技术官EvanCooke称,建立云的前提是假设这个网络将出现故障。我们围绕着主机能够并且将发生故障这个思路建立了一个基础设施。因此,我们不依赖于核心架构本身的任何一台机器或者一个组件。 ? 严重的云中断2:Sidekick关闭。 ? 智能手机让你很容易在移动中访问自己的数据。但是,某些东西并不能因为名字中有“智能”二字而不会傻。例证:大约在2009年秋季发生的T-MobileSidekick中断故障。 ? 还记得这次大惨败吗?微软拥有的Sidekick遭受了将近一个星期的服务中断,使用户不能访问电子邮件、日历信息和其它个人数据。后来,微软承认它完全失去了云存储的数据并且也许不能回复这些数据。微软的人员显然忘记了做备份。 ? 这个技术从那以后也许已经发展了。但是,教训是相同的:当涉及到重要数据的时候,永远不要假设其他人将自动保护你。要保证你理解你的云提供商的灾难恢复设置。最好是制定独立地备份你的重要数据的计划。 ? AlertSite公司负责监视产品的副总裁KenGodskind称,同样的运营规则甚至适用于云。使用云的机构不能仅仅假设因为它是在云中,业务持续性计划的全部责任已经交给了提供商。 ? 严重的云中断3:Gmail故障。 ? 在所有的云服务中,谷歌Gmail是对微软在企业中内部安装的邮件服务堡垒的最大威胁之一。使用Postini支持的便宜的独立的电子邮件服务取代你的维护成本高的Exchange服务器。有什么不一样? ? 许多令人讨厌的中断。最近的中断故障让15万Gmail用户在登录自己的账户之后只看到一个空白页,没有邮件和文件夹,没有任何东西表明他们实际上在看自己的收件箱。值得赞扬的是,谷歌提供了定期的更新并且承诺迅速修复故障。但是,对于某些受影响的用户来说,谷歌修复这个故障用了4天时间。 ? 谷歌负责工程的副总裁BenTreynor当时在博客中称,如果有你的数据的多个副本,怎么会发生这样的事情?在很少出现的情况下,软件瑕疵能够影响几份数据。那就是这里发生的事情。 ? 谷歌最后不得不改用物理磁带备份以便恢复数据。最终,谷歌的多层数据保护确实发挥了作用,但是,还是让数千用户在几天时间里无法访问其电子邮件。 ? 故障是不使用云连接的东西的一个理由吗?也许不是。但是,这是在紧迫的需求出现之前,认证检查你自己的数据保护和考虑建立备份或者离线访问解决方案的一个理由。 ? AlertSite公司的KenGodskind称,当你查看广泛的平均状况时,云的运行成功率远远高于你个人的运行成功率。这只是当你进入到Web规模时,故障的影响以更大的方式放大了。 ? 严重的云中断4:Hotmail一团糟。 ? 当然,微软也为大力推广其云服务提供最好的广告。微软Hotmail在2010年年底出现了数据库错误,导致数万个收件箱在转换到新的一年的时候都被清空。 ? 微软称,这个故障是一个脚本错误造成的。这是为自动测试创建的一个删除虚账户的脚本。这个脚本错误地删除了1.7万个真正的账户。 ?

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档