网站大量收购独家精品文档,联系QQ:2885784924

十大X86服务器见故障——硬件篇(转自51CTO).doc

十大X86服务器见故障——硬件篇(转自51CTO).doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
十大X86服务器见故障——硬件篇(转自51CTO)

由于X86服务器和台式机有着很多相似之处,从前期部署→中期维护→后期管理都有着异曲同工之妙。用得多了,遇到的故障自然不少,以下故障不知大家是否遇到过…… 说起X86平台的CPU,我们可能会如数家珍的报出N多种,Inter的至强5600、至强7500,AMD强劲的12核心x86处理器--“Magny-Cours”(马尼库尔)等等。在它的基础上,辅以带ECC、ChipKill、热插拔技术的内存;防止数据异常丢失的RAID硬盘;提供不中断电力供应的冗余电源等等共同构建出一个完整的X86服务器。 由于X86服务器和台式机有着很多相似之处,从前期部署→中期维护→后期管理都有着异曲同工之妙。因此,X86应该算是我们广为熟知的架构了。用得多了,遇到的故障自然不少,以下故障不知大家是否遇到过…… 硬件故障篇 Top10 网卡 服务器网卡 故障回放:近几日,内网用户通过代理服务器进行连接时不太稳定,ping的速度有时低于1ms,有时高达500多ms,数值相差之大也说明了网络时好时坏。起先判断是蠕虫病毒作祟,但经过详细筛查,确定非病毒引发的故障;再对网线进行测试,衰减、串扰、回波损耗等各项技术指标都在正常指标之内,最后更换网卡故障才得以解决。 解决方案:我们知道一款优秀的网卡除了拥有高速率外,还需要关注2个技术指标,TOE(TCPOffloadEngine,TCP减负引擎)技术和RSS(Receive-sideScaling接收端调节)技术,它们能大幅减轻CPU的资源,解决了输入/输出流(I/O)的瓶颈,使网络吞吐大幅提升,这两项技术可以使系统的响应指标的TPS值能提升2.1到2.5倍,所以一块好的网卡是保证服务器快速、稳定连接的保障。 一般来说,网卡出现故障的状况较低,即便是损坏也可以使用独立网卡代替,它的危害程度也不是很高。 危害程度:★★ 控制难度:★ 综合评定:★☆ Top 9 风扇 服务器风扇组 故障回放:某服务器经常死机或者自行重启,在排除了软件隐患后,把目光转向了硬件平台。检测CPU、硬盘的温度,全部超出标准,旋即拆开服务器,热气涌出,原是机箱内的风扇坏掉了,温度升高导致系统不稳定。 解决方案:降低机箱内的温度主要是改变热传导率系数,塔式服务器通过增加风扇物理数量和加快风扇转速来引动气流的循环,排除热量。效果非常好,噪音非常大;机架式和刀片式服务器由于空间有限则利用新型的“智能风扇”系统来控制空气的流动。 这种风扇以“组”的方式出现,每个“组”包括两个串联而成的冗余风扇,它们通过智能IC芯片来实时监控风扇的转速和服务器内部的温度,温度过高时,智能芯片调高风扇的转速以抑制热量升高;低功耗运行时智能风扇系统将会自动降低风扇的转速,减轻能耗的排放;而如果其中一个冗余风扇损坏,另外一个风扇会将其自身转速提高一倍,完全弥补风扇停转引起的风速不足情况,大大提高了服务器的稳定性和可靠性。 危害程度:★★ 控制难度:★★ 综合评定:★★ Top 8 电源模块 服务器电源模块 故障回放:某日清晨,刚刚走进机房就感觉一股热浪迎面扑来,查看温湿度表,显示室内温度已经超过了35℃,原因是空调系统短路,上一层的空气开关跳闸,导致机房温度急剧上升。立即检查所有服务器,基本上都正常工作,只有一台代理服务器出现了蓝屏,重启服务器,更换内存都无法恢复,并且重装系统过程中也同样蓝屏。 解决方案:对CPU、主板、内存、硬盘进行详细诊断,全部正常,对电源进行测试,发现电压输出非常不稳定,将其拆开,一颗滤波电容已经漏液,想必是机房温度升高,电源负载过重,高频整流滤波电路内的二极管被击穿所致,尽管尚能供电,却是非常的不稳定。立即寻找同型号的电源予以置换,服务器得以恢复正常。 为了保证今后此类故障不在出现,所有服务器全部配备了冗余电源,一旦出现电源模块损坏的故障可以立即恢复,大大降低了危害程度。 危害程度:★★★ 控制难度:★★☆ 综合评定:★★☆ Top 7 CPU 服务器处理器 故障回放:笔者曾经有一台基于Intel双核至强3040核心的服务器,开机无显示,系统指示灯疯狂的闪烁,怀疑是CPU与主板的接触不良,将其更换到多路服务器主板的另外一个CPU插槽之上,依旧没有反应。 解决方案:经测量,CPU电压居然降至1付以下,原来是CPU的VRM(VoltageRegulatorModule,电压调节模块)出现了故障,不能执行主板上DC电路转换,无法为CPU提供稳定的工作电压,只能更换CPU。 这个故障是比较致命,CPU的损坏将直接导致整个服务器的不可用,但是CPU本身的安全性是非常高的,故障率极低。所以在日常维护任务中,由于CPU的损坏导致的服务中断较为少见,它的危害程度不算太高,如果是多路服务器更是不用担心CPU损坏而带来的服务器宕机了。 危害程度:★★★☆ 控制

您可能关注的文档

文档评论(0)

elouwn + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档