超级计算机中主存储器可靠性技术研究.pdf

超级计算机中主存储器可靠性技术研究.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
李金娜:超级计算机中主存储器可靠性技术 超级计算机中主存储器可靠性技术 李金娜① (江南计算技术研究所 无锡214083) 摘要本文先对存储器错误进行简单分类,对超级计算机存储器检错纠错算法、存储器 清洗技术、存储器冗余技术等作了介绍,并分别提出了存储器清洗算法和存储器冗余操作 的一种实现方案。 关键词超级计算机,ECC字,可靠性,冗余,清洗 比例约为95%。 0 引言 2存储器可靠性设计 当今世界计算机技术飞速发展,为追求高性能, 超级计算机规模越来越庞大,对系统可靠性要求也 为提高超级计算机中存储器的可靠性,国内外 越来越高,而存储器可靠性在超级计算机系统可靠 开展了深入研究。尽管人们对存储器的设计封装做 性中占有举足轻重的份额。本文分析了存储器错误 了大量工作,以提高它的可靠性,但现实应用中存储 的产生原因,并分别从纠正、预防和冗余三个角度出 器总是不可避免发生错误,为此必须对存储器的错 发,介绍了存储器可靠性设计中的三种技术:ECC纠 误在一定范围内进行纠正,现代计算机系统通常采 错码、存储器清洗算法以及存储器冗余操作,并就存 用ECC纠错码实现这一功能。但是任何纠错码的 储器清洗算法、存储器冗余提出了可供参考的一种 纠错能力都是有限的,而存储器的错误是会累积的, 实现方案。 并且这种错误累积效果是造成不可纠错误的主要原 因,从尽量减少存储器错误累积的角度,可采用存储 1存储器错误分类 器清洗方法来提高存储器的可靠性。然而,存储器 某单元一旦发生硬错误,通过存储器清洗是无法消 从产生错误的机理来分,可以将存储器错误分 除的,这种情况下只有通过存储器冗余位替换掉已 为软错(SoftError)和硬错(HardError)两类。存储器 发生硬错误位,才能保证存储器在一定时间内仍可 软错主要是在存储芯片受alpha粒子或宇宙射线干以正常工作。下文先对各种提高存储器可靠性的措 扰时发生的,目前受益于存储器芯片封装材料质量 施做一简单介绍,着重提出存储器清洗流程和存储 得到很大提高,受alpha粒子影响而导致软错的情况器冗余流程。 得以明显减少,但软错仍是存储器错误中发生概率 2.1传统的SEC.I)ED算法 最大的一类。由于alpha粒子或宇宙射线的干扰通 在超级计算机主存储器中,最常用的算法是纠 常只会造成瞬间的电位变化,所以软错是“临时性” ErrorCorrect.DoubleEr. 单错检双错SEC.DED(Single 的。硬错是由存储单元的硅片和金属化物理失效引 IDr Detect)[tJ算法。此算法由硬件实现。当存储器 起的,一旦发生或存在,则是“永久性”的。 中单错比例为95%左右时,采用SEC.DED算法将使 IBM的一个统计表明:在存储器错误中,软错占 主存储器的纠错能力提高20倍左右。 98%以上,而且主要是软单错。例如,IBM用来做存2.2位分散(Bit Scattering)技术 储器故障模拟时所做的

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档