互连网络容错体制研究.pdfVIP

  • 2
  • 0
  • 约1.29万字
  • 约 5页
  • 2017-09-01 发布于安徽
  • 举报
200 7年全田高性能计算学术年会 互连网络容错体制研究 高剑刚姚玉良 (江南计算技术研究所无锡214083) (yaoyulan鳇yahoo.—c———o—m——.c—n) 摘要:随着互连网络设计越来越复杂、规模越来越大,在运行过程中出现故障是不可避免的.本文首 先简要地阐述了容错的基本概念,然后分析互连网络结构和数据传输的特点,在此基础上提出了互连网络 容错架构。 关键词:容错故障互连网络 Researchoffault—tolerantarchitectureforinterconnectnetwork GaoJiangangYaoyuliang Institute (JiangnanofcomputingTechnology,214083) Abstract:Withtheincreaseinthenumberof tolerantmechanismsare components,fault becoming acriticalissueinterconnectnetwork.Inthe describefaulttolerant for first design paper,we and thecharacteristicof last afault—tolerant conceptsanalysis interconnect,atprovide architectureforinterconnectnetwork. Words:fault-tolerant.interconnect Key 络容错的技术和方法。 2容错基本理论 随着并行计算机系统规模不断扩大,处 理节点从几千发展到上万个(如IBM BlueGene 对于一个系统而言,其故障来源主要 65536处理节点),为了满足系统 的需要,互连网络的规模越来越大、速度越 有以下四个方面: 来越快,同时对网络吞吐率、延迟和可靠性 1)元器件的制造缺陷、随机缺陷、 的要求也越来越高。虽然通过各种抗干扰技 失配等因素引起的物理故障。 术和生产工艺的改进,尽量降低单个部件的 2)系统边界条件、环境、用户和 失效率,但是对于巨大的网络规模而言,每 操作员的非法使用等引起的外部环境故 个部件将失效率迭加在一起,网络整体失效 障。 率仍然很高。因此,互连网络已经成为系统 3)设计的算法、结构和需求的不 可靠性不可忽视的部分。 正确引起的设计故障。 为了提高互连网络可用性,一方面通过 4)在设计过程中没有满足设计要 各种技术手段,降低部件失效率,另一方面 求而引起的实现故障。如器件选择、设 应当允许互连网络发生故障,对互连网络故 计逻辑错、同步错、时序错等硬件错误, 障进行容错处理,保障整个计算机系统持 操作环境假设条件错等软件错误。 续、稳定的运行。对于互连网络的容错,除 系统故障可以分为两类,即硬件故 了采用

文档评论(0)

1亿VIP精品文档

相关文档