宕机是什么意思.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

宕机是什么意思

服务器崩溃宕机是IT行业术语,宕为英文down的音译。所谓宕机,是指网络空间的信息系统无法提供正常服务,出现卡顿甚至“停摆”现象,用户的直接体验就是系统长时间无响应,比如无法正常访问、搜索无响应、无法发帖等。

造成系统宕机的因素有很多,比如机房供电故障、服务器硬件崩溃、系统处理能力不足、遭受网络攻击等。突发热点事件引发服务器宕机事件,通常是由于瞬间访问量暴增,导致后台服务器不堪重负,只好“一宕了之”。

宕机并不合理,但宕机却无法100%避免。这里面有运营商的锅、设备商的锅、运维误操作的锅、软件平台bug的锅、台风地震雷击的锅........一锅又一锅,总有躲不过去的锅。

那如何尽可能的预防宕机呢?还要从以下几方面说起:

一.云厂商技术上的完善

即增强云服务的可靠性和业务连续性。这两项一直是用户非常重视的指标,云服务器宕机1分钟,对于云服务提供商来说是一次运维故障,但对企业而言,或许意味着客户的流失甚至破产,特别是不可逆的故障不是云服务提供商赔偿就能挽回的。因此云厂商对于服务可靠性的要求还是远远不够的。

二.根据自身特点选择云灾备和云保险服务

尽量在经济和人员条件可行的情况下使用这些分散风险,如果故障只出现在一个服务器集群,如果采用异地灾备的方案,就可以在最快时间切换到另一个集群下,保持系统可用;云保险则是企业的最后一道保障。

三.增强用云规范意识

为避免由于人员的误操作或者相关人员操作不规范造成的宕机事故,相关企业和政府机构应加强技术人员的培训和灾备意识的建立,企业的IT人员日常应做到异机备份、数据容灾、业务双活、定期对灾备和双活进行演练等,尽可能避免云故障带来的损失。

前段时间,大规模的云服务器宕机故障占领了热搜与程序员们的朋友圈,一大拨程序员、运维专员都从睡梦中被叫醒跑去办公室干活。除了加班的程序员们,其他受到影响的各种应用使用者们也是一头雾水。

有网友称,疑似阿里云华北2部分机器故障,怀疑是磁盘问题,部分硬盘无法访问,凡是会读写故障盘的系统软件或服务程序,都会收到影响。

▎随后阿里云官方回应道:

华北2地域可用区C部分ECS服务器等实例出现IOHANG,经紧急排查处理后逐步恢复。目前我们已经全面排查其他地域及可用区,未发现此类情况。

那么问题来了,IOHANG是个什么鬼?

简单的说,就是服务器磁盘读写过慢,导致线程和进程挂起。大量读写线程/进程挂起导致服务器宕机...

阿里云有大量的类似RDS,HybridDB数据库,支持海量数据在线事务(OLTP)和在线分析(OLAP),需要大量的IO读写,而Linux的IO性能将直接影响SQL的执行速度,严重情况下将导致服务器卡死和宕机。

小到网页加载卡顿,传不了邮件,大到网站,app崩溃,业务停摆。说了这么多,到底什么是宕机?

宕机的常见原因

1、硬件故障,如硬盘故障,电源故障

2、黑客攻击

3、流量负载过大

4、人为误操作

5、程序猿删库跑路

6、地震海啸自然灾害等等

对运营商来说:

1、宕机不可避免,强化预警机制才能最快发现问题。

2.第一时间发布公告,让用户有所准备。否则只会在爆工单和热搜中很难挽回他们的名誉。

3.定期的运维检查当然是不可或缺的,不断提升系统可靠性仍然是现阶段所有云服务商的努力方向。

站在商业的层面,无论市场如何变化,云服务厂商为客户提供优质服务的内核都不应受到任何影响。在更为复杂的和多元化的云服务方案中,相比现在云服务厂商只与企业对接,未来将不可避免的与同行、友商们站在同一“战壕”,协同作战。这就要求,云服务厂商除了有过硬的技术能力随时帮助企业解决问题之外,还应放弃门户之见,以更为开放的心态与同行合作,服务企业。

近年来,“去运维”的相关讨论甚嚣尘上,有人认为这只是杞人忧天,并反问“阿里云自己都刚宕机,还想说不需要运维吗?”,有人则认为英雄所见略同,还有人进一步将未来的运维阐述成“云维”。

专家认为,运维团队的实力也是云计算服务商的核心竞争力,云计算要求更高的运维能力,能够保障大规模基础设施和业务稳定运行。对于企业用户而言,底层基础设施的运维工作确实可以甩给第三方公有云服务商统一负责,但上层应用的运维工作还需要企业自己来承担,比如环境配置,不过更多的是DevOps。

技术的发展需要努力的人,但也需要抬头看路的人。云时代,运维人员不是一文不值,而是会变得更加重要。云计算承诺高弹性、高可用、高性能、智能化,运维的自动化、智能化也是未来的重要发展趋势。

除了提示自身运维能力之外,一款好的运维工具可以帮助运维大大提高工作效率,并能够解决人为不可控制的难题,让服务更有保障。云帮手7*24小时安全巡检、资源监控功能可以帮助运维人员解决值守难、巡检难的问题,并能够根据服务器运行情况及时产生告警

文档评论(0)

偶遇 + 关注
实名认证
内容提供者

个人介绍

1亿VIP精品文档

相关文档