网站大量收购独家精品文档,联系QQ:2885784924

探索 AIX 6:新特性概览(下).doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
探索 AIX 6:新特性概览(下).doc

  探索 AIX 6:新特性概览(下)   可用性   RAS 组件框架   企业级的 RAS(Reliability,Availability,Serviceability)历来是 IBM System p 服务器和 AIX 操作系统的核心优势,在 AIX 6 中,其 RAS 特性又有了大幅增强,提供了一个组件式的 RAS 基础框架,其中包含以下组件(又称之为 Domain):   RTEC(Run-Time Error Checking):运行时故障检查,可对系统组件(包括硬件和软件)的故障检测,严重程度级别和处理动作进行定义。AIX 6 中很多设备驱动和子系统都使用了该组件提供的服务,例如 VMM 子系统,存储和磁盘驱动,网络驱动等等。   CT(ponent Tracing):新增的跟踪(Tracing)调试手段。可以用于系统跟踪时提供额外的更加细致的过滤,或者作为单独的跟踪手段来帮助诊断系统问题。   CD(ponent Dump):对 Dump 功能的增强。Dump 信息的详细程度可以进行细化控制,并且可执行 Live Dump(dump 过程不需要停止系统,dump 结束后系统继续运行)。   基于这个框架,AIX 系统自身的各个部分和第三方的软件都可以向系统注册并执行其特有的故障检测和控制,tracing 和 dump 等功能,以提供更加强大和灵活的 RAS 特性。   伴随着 RAS 组件框架还增加了一系列的系统管理命令,其中最主要的是 errctrl,ctctrl 和 dumpctrl 命令,可对各个 AIX 各个子系统或者设备的 RTEC,CT 和 CD 属性进行控制。   Dump 功能的增强   Dump 是 AIX 系统中用于故障诊断的一项非常重要的功能,dump 数据中包括了故障发生时的内存内容和处理器状态等信息,可用于重现故障时的场景以进行分析。旧式的 dump 方法是在崩溃时对整个系统的内存都进行转储,由于现代系统的物理内存越来越大,进行一次完整 dump 的时间也越来越长,间接的增加了由于宕机带来的停机时间。AIX 6 中引入了几种新的 dump 手段,更加灵活方便,对业务影响更小。下表对各种 dump 方式做了总结: 方式 AIX 版本 说明 传统 dump 所有 原始方式,随着 CPU 数量的增加,物理内存的加大,dump 需要的时间也越来越长。 Minidump V5.3 TL3 数据不是像传统的 dump 方式那样保存到磁盘上,而是保存到 NVRAM 中,系统下次启动时,再写入到 error log 中。因此 Minidump 的容量非常小,只保存了关键的信息,同时转储所需要的时间也很短。 Parallel dump V5.3 TL5 Dump 数据存储的格式发生改变,数据块以无序方式存储,使得多处理器的系统可以按照每个处理器同时转储一块区域的方式将内存数据写入到 dump 设备。此改进使得大型系统(多 CPU,大内存)的 dump 速度得到大大提升,仅仅受限于 I/O 速度。 ponent Dump V6 在上一主题RAS 组件框架中我们已经提到,ponent Dump 使得管理员可以对 dump 的详细程度和各组件的 dump 属性进行更加精确的控制。 Live Dump V6 Live Dump 方式基于新的 ponent Dump 框架。执行时,只有那些注册到 CD 框架并且声明为支持 Live Dump 特性的组件才会有数据转储。Live Dump 还有另外一项非常重要的特性,就如其名称表明的一样,在 dump 时不需要重新启动系统。因此 Live Dump 方式减少了需要转储的数据并显著的降低了 dump 所需要的停机时间。 Firmp V6 传统的 dump 方式实际上是由已经发生故障的 AIX 内核进行的,这样存在两个问题:   如何保证由已经故障的内核所写入的数据的正确性   故障严重到内核已经无法进行 dump 时,即无法收集任何 dump 信息   在 POanager)的组件,所有需要提供故障自动回复的内核组件或者扩展模块都会向 Recovery Manager 注册其特定的恢复例程(Recovery Routine)。当某个组件发生错误时,它会产生一个异常,将执行转交给 Recovery Manager,由其执行该组件的恢复例程。当恢复例程执行结束后,Recovery Manager 会将执行交还该组件,使其继续运行下去。   恢复例程内通常会执行以下操作,使得出错的组件可以恢复到正常的执行状态:   收集故障数据   检查并恢复数据结构   对组件出错时持有的资源进行相应的处理或者释放   决定修复为故障而应采取的措施   恢复例程

文档评论(0)

ggkkppp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档