处理器容错技术相关的研究.pdfVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
处理器容错技术的相关研究 张仕健 摘 要 随着集成电路制造工艺的持续进步,处理器计算的可信性面临着瞬态故障的严重威胁。本文将处理 器的容错技术分为针对存储单元的容错技术和针对流水线逻辑的容错技术,从不同的层次介绍和分析有代 表性的最新的研究成果,在此基础上归纳、总结出当前研究重点解决的几个问题并展望了容错技术未来的 发展趋势。 关键词 瞬态故障、容错、时间冗余、微处理器结构 1 引言 [1] 集成电路制造工艺的持续进步使得处理器计算的可信性面临着瞬态故障的严重威胁 。 瞬态故障是一种芯片的非物理性损伤,可由粒子辐射、电源和互联噪声、电磁干扰等因素诱 发,会对程序执行的正确性产生灾难性的影响。有研究表明,在纳米工艺条件下,瞬态故障 [2] 是引起芯片失效的主要原因 。 人们对瞬态故障的研究随着科技的发展不断深化。早在 1954 年,人们在核试验和空间 试验中发现了瞬态故障并对导致故障的辐射源、故障模型展开了研究;1978 年,人们发现 高密度内存电路在地面使用中受阿尔法(α)粒子辐射或宇宙射线作用会发生瞬态故障。自 此,针对存储单元的容错技术在多个层面展开了大量的研究[3] ;随着器件特征尺寸的缩小和 工作频率的提高,组合逻辑上发生的瞬态故障将对芯片的失效率产生不可忽视的重大影响 [4],针对流水线逻辑的容错技术逐渐成为研究热点。 本文首先将处理器的容错技术分为针对存储单元的容错技术和针对流水线逻辑的容错 技术,然后从不同的层次介绍和分析有代表性的最新的研究成果,在此基础上归纳、总结出 当前研究重点解决的几个问题,并给出了容错技术未来的发展趋势。 2 处理器容错技术 根据容错技术作用对象的不同,可以将处理器容错技术分为两大类:存储单元容错技术 和流水线容错技术。本文所说的存储单元包括片上缓存、TLB 1 以及寄存器堆,这些电路单 元排列规整、集成度高;流水线包括流水线上的组合逻辑和流水线寄存器。 2.1 存储单元容错技术 在现代微处理器芯片中,存储单元占有绝大部分的面积。它上面发生的故障会直接影响 程序的正确执行。因此针对存储单元的容错技术一直是研究的重点。这些研究可分为电路级 容错技术和结构层容错技术。电路级容错技术一般都有存储备份单元和状态反馈电路。当一 个存储单元发生故障时,状态反馈电路从备份的存储单元中提取正确的状态并恢复出现故障 [5] 的存储单元的状态。双向互锁存储技术(DICE ,Dual Interlocked storage Cell ) 是这类技 术的典型。每个DICE单元包括两个存储节点和两个保持节点,当某一个节点出现故障,两 个保持节点通过反馈电路,自动恢复故障节点的状态。该技术故障延迟短,一般只有几个纳 秒,通过制作成电路库单元,能够降低容错系统的开发、验证成本,主要缺点是芯片面积显 1 Translation Look aside Buffer ,转换旁视缓冲器,作用是存放虚拟地址到物理地址的转换结果 著增大,增加了生产成本。例如在 90 纳米工艺下,DICE单元的面积比普通存储单元的面积 增加了 80%。在结构层面,基于编码的信息冗余技术被现代微处理器广泛采用[6][7],常用的 ECC2 编码能纠正一位错发现两位错,可满足大多场合的应用需求。但是随着芯片集成单元 越来越密集,发生多位错误的可能性在逐渐增加,因此,如何克服多位故障是一个值得深入 研究的问题。IBM提出的Chipkill技术是一种高级的ECC编码,通过内存交织和位分散的方 式能够容忍多位故障[8] 。内存洗刷技术周期性地执行ECC检错和纠错逻辑,能有效减少多位 [9] 3 故障发生的可能性 。张(Zhang )等人提出的ICR 技术利用空闲的缓存块备份活跃的缓存 块,结合Parity编码,可以一定程度上克服多位故障[10] 。另外,常规的编码技术忽视了缓存 块的状态差异,对所有的缓存块都统一编码,不能满足一些应用中的面积限制。林(Lin

文档评论(0)

nnh91 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档