AIX DMS简单介绍.docVIP

  • 8
  • 0
  • 约4.3千字
  • 约 7页
  • 2017-03-07 发布于贵州
  • 举报
AIX DMS的简单介绍 (v 100220) 作者 李彬 审核 分类 子类 IBM 更新时间 2010-12 关键字 AIX DMS的简单介绍 摘要 AIX DMS的简单介绍 主要适用环境 AIX 版本说明 版本号 拟制/修改责任人 拟制/修改日期 修改内容/理由 1 AIX DMS的简单介绍 1. dms 的介绍: DMS(deadman switch 是用来描述系统kernel extension用的,它可以在系统崩溃前down掉系统,并产生dump 文件,以供日后检查。 DMS存在的目的是为了保护共享外置硬盘及数据,当系统挂起时间长过一定限制时间时,DMS会自动down掉该系统, 由hacmp的备份节点接管系统,以保护数据和业务的正常进行,避免潜在的问题,特别是外置磁盘阵列。 2. DMS 的起因: DMS起作用的原因主要有以下几点: a. 某种应用程序的优先级大于clstrmgr deamon , 导致clstrmgr无法正常reset DMS计数器。 b. 在系统上存在大量IO 操作, 导致cpu 没有时间相应clstrmgr deamon . c. 内存泄漏或溢出问题 d. 大量的系统错误日志活动, 如: (token-ring beaconing 问题) 3. 如何检查是否系统发生了DMS 我们可以通过分析DUMP文件来看,如: # crash /dev/lv00 Using /unix as the default namelist file. cpu Selected cpu number : 0 stat . status CPU TID TSLOT --PID PSLOT STOPPED PROC_NAME 0 --205 2 --204 2 yes wait 1 --307 3 --306 3 yes wait 2 --409 4 --408 4 yes wait 3 --50b 5 --50a 5 yes wait 4 --60d 6 --60c 6 yes wait 5 -1867 24 -125a -- 18 yes errdemon 6 --811 8 --810 8 yes wait 7 --913 9 --912 9 yes wait t -mk Skipping first MST . MST STACK TRACE: 0x00438eb0 excpt0000000000000000 intpri 5 IAR: .panic_trap+0 : tweq r1,r1 LR: 00438d40: .[dms:timeout_end]+4c 01713b98 00438d80: .clock+134 0002e9a8 00438de0: .i_softmod+2a8 0001c3b0 00438e70: flih_603_patch+cc 00028b74 . 0x2ff3b400 excpt0000000000000000 intpri 11 IAR: .waitproc_find_run_queue+c0 000255e0 : addic r3,r0,-4 LR: .waitproc+a0 00025aa4 2ff3b328: .waitproc+a0 00025aa4 2ff3b388: .procentry+14 2ff3b3c8: .low+0 . symptom PIDS/5765C3403 LVLS/430 PCSS/SPI1 MS/700 FLDS/panic_tra VALU/7c810808 FLDS/[dms:dead VALU/18 或者检查 errpt , 如: errpt -a LABEL: KERNEL_PANIC IDENTIFIER: 225E3B63 Date/Time: Sequence Number: 609 Machine Id: 0040613A4C00 Node Id: Class: Type: Resource Name: PANIC Description SOFTWARE PROGRAM ABNORMALLY TERMINATED Recommended Actions PERFORM PROBLEM DETERMINATION PROCEDURES Detail Data ASSERT STRING PANIC

文档评论(0)

1亿VIP精品文档

相关文档