服务器内存数据保护技术浅述.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
服务器内存数据保护技术浅述

服务器内存数据保护技术浅述   [摘要]介绍几种服务器内存数据保护技术,奇偶校验、ECC、Chipkill以及更高级的内存热备份和内存镜像技术,并就各自优劣进行分析和比较,并提供三年内存使用的模拟实验数据,有力的证实了Chipkill技术的可靠性和实用性。   [关键词]奇偶校验 ECC Chipkill 内存热备份 内存镜像   中图分类号:TP309.2;TP333.1 文献标识码:A 文章编号:1671-7597(2008)0620040-01      一、引言      随着服务器性能的不断提高,以及内存容量需求的不断增长,内存可靠性和稳定性的要求也不断提高。从最初的奇偶校验,到在此基础上发展出的ECC技术、高级ECC技术,到现今的CHIPKILL技术,以及更高级的内存热备份和内存镜像技术等,各类内存保护技术日趋成熟和完善,为服务器高度稳定的运行提供了可靠的保障。      二、基本内存纠错技术      (一)奇偶校验技术   90年代初,内存体系采用奇偶校验(Parity Verifying)技术。奇偶校验实现的方式是除传送数据位之外,再传送1位奇/偶校验位,并采用奇校验或偶校验进行验证。这种技术能够检测出传输数据中单比特错误,但不能纠错,发现错误后,只能重发。由于其实现简单,在中低端领域得到了广泛使用。随着应用的发展,在此基础上又产生了ECC(Error Checking and Correcting)。   (二)ECC技术   ECC也是通过数据外加位来实现的,在ECC纠错体系中,如果数据为N个字节,则外加的ECC位为(logN+5)。每次写数据时,ECC采用特殊的算法生成校验码,并把所有的校验码累加起来,得到一个校验和(Checksum),该校验和与数据存储在一起。每当从内存中读取数据的时,都要重新计算校验和,并与原校验和比较,以判断数据的正确性。当出现单个存储位错误时,ECC体系可以自动纠错,当出现2个数据位错误时,可以检测出来,但不能纠错,这通常称作“单错纠正/双错检测”(Single Error Correction/Double Error Detection ,简称SEC/DED)。一次存取中有2个以上的数据位出错时,SEC/DED体系就无法检测,ECC内存会产生一个不可屏蔽的中断,通知系统数据出现错误。   ECC码的长度跟数据的长度是成对数关系,与奇偶校验相比,当数据位多于64位时,ECC码在空间占用上就会凸现优势,而且ECC校验还能纠正单错和检测2位多错。但ECC校验算法比奇偶校验复杂不少,需要专门的芯片支持,且系统需要时间来等待校验结果,所以ECC校验会降低系统速度2%~3%左右,但这小小的代价换来了系统稳定性的大幅提高。   (三)高级ECC技术   随着RAM芯片数据位宽的不断增加,以及内存容量需求的激增,ECC内存保护的效率也开始降低。为此HP公司开发了高级ECC内存技术,并得到广泛应用。新的ECC技术的内存中,每一个DRAM芯片提供4bit的数据给数据字。从每个芯片中出来的这4bit数据被平均分配给4个带有ECC技术的设备,每个设备1比特,这样一来,每个芯片上发生的错误可以分解为4个独立的单比特错误。其工作原理如图1所示。改进前,每一个ECC设备仅可纠正单错,而改进后的ECC设备可以纠正一个DRAM芯片中最多4比特错误,因此,高级ECC技术提供了更好的内存数据保护。      (四)Chipkill内存技术   随着服务器CPU性能的不断提高,内存数据访问带宽要求也越来越高,单一内存芯片每次访问时通常要提供4(32位)或8(64位)字节以上的数据。数据访问量的增大,伴随着多位数据出错率的增大,然而ECC对纠多位错误又无能为力,于是IBM公司为此开发了一种新的ECC内存保护技术Chipkill。   图2描述了其工作原理。存储系统由4个DIMM模块构成,32个字节(256位)的数据被分成4个ECC字,每个ECC字含有8个字节(64位)的数据位和8个ECC位。      图2 Chipkill内存纠错原理      图3 三年内由于内存故障导致的服务器延迟数      配置32MB奇偶校验内存的服务器,每100台中有7台发生延迟。   配置1GB ECC校验内存的服务器,每100台中有9台发生延迟。   配置1GBCHIPKILL校验内存的服务器,每10000台中有6台发生延迟。   存储器控制器(Memory Controller)把每个ECC字被分成4个长度为18位的段,分别存储于4个DIMM中。同时,每个DIMM中也存储了4个来自不同的ECC字的段。然后,每个段的18个位再被存储在不同的DRAM芯片中。这样每个DRA

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档