6章_分布式数据库中的可靠性2013-1-6.ppt

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
可靠性 指数据库在一给定时间间隔内不产生任何失败的概率。 它强调数据库的正确性,要求数据库正确运行,既符合某种规格化要求。 通常用来描述不可修复的系统。 可用性 强调的是当需要访问数据库时,它是可用的。 指在给定的时间t,数据库按照说明能正常运行的概率。 通常用于描述那些可以修复的系统。 两者关系 通常认为构建可用性的系统比可靠性的系统容易; 两者是统一的,可靠性高的系统可用性自然是好的; 两者又是矛盾的,增加错误风险的情况下,可提高可用性;采用 太谨慎的策略会降低可用性。 例: Site1 Site2 x1 x2 Lock x1 Lock x2 2PC 通常使用两个参数的指标来度量一个分布式数据库的可靠性程度: 平均故障间隔时间MTBF和平均修复时间MTTR。 平均故障间隔时间MTBF 指在可以自我修复的系统中相继失败之间的期望时间; 通过可靠性函数R(t)来计算MTBF=∫0∞R(t)dt 可靠性函数R(t)与系统失败的概率有直接的关系。 平均修复时间MTTR 是指修复一个失败的系统所需要的期望时间。 它与失败概率有关 指数型失败和修复的概率的系统可用性可以描述为: A=MTBF/(MTBF+MTTR) 可用性系统 5个9(99.999%)常用来描述可用性系统; 建立一个高可用性系统比建立一个通常要求的系统要花费更高的成本(时间、人力、财力等)。 具体设计时要仔细分析,与最终用户商定,以确定用户可以忍受多长的停机时间,以及停机可能造成的影响,并且明确说明高可用性系统的成本。 故障 任何偏离规范说明的行为称为故障。 软故障和硬故障 软故障包括间歇性(intermittent)和瞬变性(transient)故障,通过重启动来修复; 硬故障指永久性故障, 错误设计等。 软件故障 通信或数据库的原因是产生软件故障的主要原因。 软件故障的典型原因是代码中的Bug, 曾有报告指出, 1000条指令中, 0.25-10个BUG。 软件故障难以排除,一个典型的软件工程在到达测试阶段以前,要经过大量的设计审查和代码检验。 审查不同计算机系统中出错的统计数据 IBM/XA 的OS 可靠性报告 57%是硬件, 12% 软件, 14%操作, 7% 环境(斯坦福线性加速器SLAC) Tandem计算机 18%硬件 25% 软件 25%维护 17%操作, 14%环境 ATT 5ESS数字交换机 32.3%硬件, 44.3%软件, 17.5%操作 容错 设计出一种使系统识别出可能会发生的错误的方法。在系统中建立一种机制,使错误在造成系统故障之前就会被检测出来,并能被清除或得到补偿。 错误预防技术 保证所实现的系统不包含任何错误。错误预防有两个方面: 错误回避:保证系统不会带入错误的技术(详细的设计方法学和质量控制) 错误清除:清查那些在使用了错误回避技术路线后还残留在系统中的错误,并清除它们(需要大量的测试和证实过程) 故障检测 潜伏的故障:故障发生一段时间后才被检测出来; 错误潜伏期:从故障发生到被检测出来的时间; 平均检测时间(MTTD):平均错误潜伏时间; 平均修复时间(MTTR):修复一个失败的系统所需要的期望时间; 平均故障间隔时间(MTBF):在可以自我修复的系统中相继的失败 之间的期望时间, 由经验或从可靠性函数计算。 冗余 所有容错系统设计中都采用的基本原则是在系统的组件中提供 冗余。 对冗余的附加和补充的容错原则是设计的模块化。 模块化 系统的每个组件被设计为具有定义很好的输入/输出接口的模块。 模块化可以把故障隔离在单一的组件中。 容错系统实现 故障-停止模块(fail-stop module) 进程对(Process pairs) time 正常 停止 恢复 正常 进程对(Process pairs) 通过软件模块的双工来实现容错。 它的思想是通过两个相互通信和合作的进程,完成系统的每一个服务的方法来减少单个的故障点。这两个进程中的一个叫做主进程,另外一个叫备份进程,它们同时提供同样的服务,主进程与备份进程都是基于故障-停止模块实现。 进程对机制要求进程之间进行通信,可以通过共享存储区的手段来实现进程之间的通信。 当设计一个可靠的软件环境时,使用基于消息传送的通信机制来实现一个操作系统是非常重要的。由于每个进程都在自己的地址区间内执行,一个进程可能发生的错误就不会传播到另外一个进程,这种方法可以有效地进行错误隔离。

文档评论(0)

fpiaovxingl + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档