- 2
- 0
- 约1.29万字
- 约 5页
- 2017-09-01 发布于安徽
- 举报
200
7年全田高性能计算学术年会
互连网络容错体制研究
高剑刚姚玉良
(江南计算技术研究所无锡214083)
(yaoyulan鳇yahoo.—c———o—m——.c—n)
摘要:随着互连网络设计越来越复杂、规模越来越大,在运行过程中出现故障是不可避免的.本文首
先简要地阐述了容错的基本概念,然后分析互连网络结构和数据传输的特点,在此基础上提出了互连网络
容错架构。
关键词:容错故障互连网络
Researchoffault—tolerantarchitectureforinterconnectnetwork
GaoJiangangYaoyuliang
Institute
(JiangnanofcomputingTechnology,214083)
Abstract:Withtheincreaseinthenumberof tolerantmechanismsare
components,fault becoming
acriticalissueinterconnectnetwork.Inthe describefaulttolerant
for first
design paper,we
and thecharacteristicof last afault—tolerant
conceptsanalysis interconnect,atprovide
architectureforinterconnectnetwork.
Words:fault-tolerant.interconnect
Key
络容错的技术和方法。
2容错基本理论
随着并行计算机系统规模不断扩大,处
理节点从几千发展到上万个(如IBM
BlueGene 对于一个系统而言,其故障来源主要
65536处理节点),为了满足系统
的需要,互连网络的规模越来越大、速度越 有以下四个方面:
来越快,同时对网络吞吐率、延迟和可靠性 1)元器件的制造缺陷、随机缺陷、
的要求也越来越高。虽然通过各种抗干扰技 失配等因素引起的物理故障。
术和生产工艺的改进,尽量降低单个部件的 2)系统边界条件、环境、用户和
失效率,但是对于巨大的网络规模而言,每 操作员的非法使用等引起的外部环境故
个部件将失效率迭加在一起,网络整体失效 障。
率仍然很高。因此,互连网络已经成为系统 3)设计的算法、结构和需求的不
可靠性不可忽视的部分。 正确引起的设计故障。
为了提高互连网络可用性,一方面通过 4)在设计过程中没有满足设计要
各种技术手段,降低部件失效率,另一方面 求而引起的实现故障。如器件选择、设
应当允许互连网络发生故障,对互连网络故 计逻辑错、同步错、时序错等硬件错误,
障进行容错处理,保障整个计算机系统持 操作环境假设条件错等软件错误。
续、稳定的运行。对于互连网络的容错,除 系统故障可以分为两类,即硬件故
了采用
原创力文档

文档评论(0)