IIBMAIX持续可用性dumpctrl.docVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
IIBMAIX持续可用性dumpctrl

IBM AIX 持续可用性: 第 3 部分 多年以来,AIX 操作系统一直包含由 IBM 技术支持的许多可靠性特性,现在通过应用更先进的技术进一步提高了 AIX 的可靠性。其中一些新特性包括对 POWER6 存储键的内核支持、并行更新、动态跟踪和增强的软件初次故障数据捕捉等等。   错误检查   Run-Time Error Checking   Run-Time Error Checking(RTEC)让服务人员能够使用产品二进制代码中内置的调试功能。RTEC 提供强大的初次故障数据捕捉和二次故障数据捕捉错误探测特性。   基本的 RTEC 框架是在 AIX V5.3 TL3 中引入的,现在已经增加了更多的特性。RTEC 特性包括 Consistency Checker 和 Xmalloc Debug 特性。这些特性一般可以通过 errctrl 命令调整。   一些特性还有专门针对给定子系统的属性或命令,比如 sodebug 命令与新的套接字调试功能相关联。AIX 出版物中描述了增强的套接字调试功能,可以在以下站点上找到:   /infocenter/pserIEs/v5r3/index.jsp   内核堆栈溢出探测   从 AIX V5.3 TL5 开始,内核提供用来探测堆栈溢出的增强的逻辑。所有运行的 AIX 代码都维护一个称为堆栈的内存区,堆栈用来存储执行代码所需的数据。在代码运行时,堆栈会增长和收缩。堆栈可能增长到超过其最大的范围并覆盖其它数据。   这些问题很难解决。AIX V5.3 TL5 引入了一个异步的运行时检查功能,用来检查特定的内核堆栈是否溢出。探测到溢出时的默认操作是在 AIX 错误日志中记录错误。堆栈溢出运行时错误检查特性由 ml.stack_overflow 组件控制。   AIX V6.1 改进了内核堆栈溢出探测,支持用同步溢出探测功能保护某些堆栈。另外,在启用恢复框架时,以前属于重大问题的某些内核堆栈溢出现在是完全可恢复的。 内核非执行(no-execute)探测   非执行探测也是在 AIX V5.3 TL5 中引入的,可以为不应该作为可执行代码的各种内核数据区设置这种保护。这个特性利用了页面级执行启用/禁用硬件特性。如果错误的设备驱动程序或内核代码的执行分支能够意外地进入这些页面,这个特性会马上探测到。以前,这种情况可能会导致崩溃,但尚未确定。   这个改进会立即捕捉到执行无效地址的指令,使它们没有机会进一步损害或导致难以调试的次级故障,从而提高内核可靠性和可服务性。这个特性对于用户差不多是透明的,因为大多数受保护的数据区显然应该是不可执行的。   扩展的错误处理   在 2001 年,IBM 引入了一种结合使用系统固件和扩展错误处理(Extended Error Handling,EEH)设备驱动程序的方法,可以从间歇性 PCI 总线错误中恢复。这种方法会恢复并重置适配器,由此开始对持久性 PCI 总线错误的系统恢复。出故障的设备不会立即失效,而是被 “冻结” 并重新启动,从而避免一次机器检查。POWER6 技术把这个功能扩展到了 PCIE 总线错误。   分页空间检验   如果系统崩溃、挂起或其他症状的根源是数据损坏,那么很难找到问题的根源,这是因为症状出现的地方远离数据损坏的位置。分页空间检验的设计目的是,检查从分页空间读入的数据是否与以前写出的数据匹配,从而改进 First Failure Data Capture(FFDC)对分页空间数据损坏引起的问题的处理。   当一个页面被换出(Page out)时,会为页面中的数据计算校验和,并把校验和保存在与分页设备相关联的一个固定数组中。当页面被换回(Page in)时,会为从分页空间读入的数据计算一个新的校验和,并与数组中的值进行比较。如果这两个值不匹配,内核就在日志中记录一个错误并终止(如果错误发生在系统内存中),或者向应用程序发送一个异常(如果错误发生在用户内存中)。 可以使用 mkps 和 chps 命令针对每个分页空间启用或禁用分页空间检验。这些命令的细节可以在对应的 AIX 手册页中找到。   存储键   大多数应用程序程序员都曾经遇到过意外的内存覆盖问题,也就是一段代码意外地写一个不属于该组件内存区域的内存位置。有一个新的硬件特性称为存储保护键(storage protection key,本文中简称为存储键)。它可以帮助应用程序程序员找到这些意外的内存覆盖。   内存覆盖和寻址错误属于最难诊断和处理的问题。随着软件大小和复杂性的增加,这个问题也会变得更复杂。在 AIX 上,许多软件组件共享一个大的全局地址空间。这给应用程序和 AIX 内核带来了可服务性问题。   根据设计,AIX 64 位内核大量使用一个大的地址空间。这对

文档评论(0)

yingrong + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档