UNIX平台双机容错系统需求分析及概念简介.docVIP

  • 2
  • 0
  • 约9.5千字
  • 约 20页
  • 2020-02-26 发布于陕西
  • 举报

UNIX平台双机容错系统需求分析及概念简介.doc

CHISC.NET - 全国医疗信息化联盟 ,为全国医疗信息化人士提供最强大的资源共享平台 一、UNIX平台双机容错系统需求分析及概念简介 ? ? 容错系统与集群系统是两个被经常混淆的系统,这两种系统实际是两个相交的子集。以下先对集群系统和容错系统做简单的的描述: 1.? ? ? ? 集群系统与容错系统 集群系统的定义: 应用程序可以透明访问的、均衡负载的、双机或多机系统就是集群系统(Clustering)。 集群系统是为适应已有的主机不能适应用户不断扩大的业务负荷而出现的,用户在过去只能选择更高性能的主机而放弃现有的工作主机,为保护用户的投资,集群系统在原有的主机基础上再增加一台或多台主机,由若干台主机共同负载业务负荷。同时这种方案由于有两台或多台主机共同工作,任何一台的故障均不影响用户的工作,因此集群系统在一定程度上也可以对主机本身进行容错。集群方案的设计典型地如下图所示: 图中MC HUB为高速内存通道,用于多台主机间的数据通讯,主机间通过一个共享存储设备来保证数据的一致性。 容错系统的定义能够对系统中的软件和硬件故障作出相应处理,以保证整个系统能够不因这些故障而导致业务处理中断,从而将因为可能的软件以及硬件故障给整个系统带来的风险将至最低。 具备此种能力的系统即为容错系统。 容错系统设计的一个基本原则是冗余,有两种基本冗余方案:冗余的硬件和冗余的数据存储。冗余的代价往往是资金和时间,例如冗余的硬件会增加用户的设备投资、占据更大的空间、消耗更多的电、系统运行速度会减慢等。因此设计者往往需根据用户的实际可靠性与可用性的要求选择不同的冗余方案。 许多容错技术要求使用专用的硬件或软件,更多的是二者结合。这也取决于系统的需求:硬件的容错方案往往系统运行速度较快但投资规模较大,软件容错方案可能占用系统开销,但比硬件方案更灵活,尤其是在系统已经建立起来之后,并且投资小。 表述一个系统容错能力的两个常用指标是可靠性(Reliability)和可用性(Availability)。可靠性指一个系统在一定时间内工作时发生故障的可能性。如一个系统一年内的可靠性为99.99%意味者系统一年中工作时失败的概率为0.0001%。可用性指一个系统故障中断工作时间与可持续工作时间的比 率。如一个系统的可用性为 99.99%意味者在一万小时的工作中将有一个小时的故障中断时间。请注意任何一个高可用性的系统都无法避免故障,因此故障恢复的时间和故障的频率必须足够小以获得需要的可用性。高可靠性和高可用性的系统对于许多应用如军事、航天、金融、通信、交通等领域很重要,因为每一分钟的工作中断都会导致经济或生命的重大损失。 和可用性相比更具体有效的系统容错性能指标是年均工作中断时间。大多数用户喜欢他们的系统99%的可用,如果这个系统一年工作时间为365天,那么因系统故障引起的工作中断时间为5256分钟,在乘上每分钟因工作中断而导致的经济损失,这个指标很容易换算成可能的经济损失。据IEEE计算机组织最新研究报告,计算机系统一般的故障停工时间为每年500-5000分钟,而很多系统都远远超过了这个标准。 2.? ? ? ? 集群计算系统与容错系统的关系 集群系统是为解决多机共同负载用户应用的负荷而设计的,虽然提高了系统的可靠性和可用性,但并不一定是一个好的容错系统;而容错系统就是为保证系统高可靠性和高可用性而设计的,设计的思路便是通过尽可能的冗余而不是共享,来避免可能的故障瓶颈。当然在此基础上双机或多机系统如能作到负载平衡是最好的。集群计算是容错技术在首先保持其高可靠性、高可用性设计之后所要达到的最高境界。 二、LongerHA双机容错系统概述 随着计算机技术的发展,PC服务器的处理能力更加强大,同时其性能/价格也越 来越高,加上传统的小型机由于维护和升级困难,费用高,正受到PC服务器的挑战。因此,基于PC服务器的“低端”系统正日益受到用户的喜爱。但同时,由于PC服务器的安全性因素,基于该平台业务系统的安全,稳定可靠和系统的持续运行成为系统的关键,因此,基于低端服务器的双机热备份系统受到越来越多的欢迎。 ? ? 性能、价格和可靠性是企业电脑化过程中人们普遍关心的三大要素。目前,国内许多行业和企业在电脑化的过程中,都选用了价格低廉而性能高效的开放系统平台。这种系统平台给用户带来性能价格比的优势的同时,由于系统的复杂性和开放性以及应用环境的多样化,也给应用系统的运行带来了许多不确定因素。这些因素对于可靠性不很高的计算机应用系统来说,犹如雪上加霜,严重威胁着应用系统稳定有效地运行,有时甚至会引发系统的瘫痪。 在一般情况下,当系统不能正常运行时,我们需要用人工的方法进行故障的认定、分析、恢复及测试。这些都需要花费很长的时间。在这段时间内,

文档评论(0)

1亿VIP精品文档

相关文档