数据库项目组日常运维及应急故障处理手册.docx

下载文档 降价啦

30
0
约11.49万字
约 123页
2017-08-15 发布于湖北
举报
版权申诉
保障服务

数据库项目组日常运维及应急故障处理手册.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据库项目组日常运维及应急故障处理手册

常见问题及处理方案 CPU使用率高的问题通过操作系统命令top topas glance等查看top进程号，确认是系统进程还是oracle应用进程，查询当前top进程执行的操作和sql语句进行分析。根据进程号获取正在执行的sql SELECT a.osuser, a.username,b.address,b.hash_value, b.sql_text from v$session a, v$sqltext b, v$process p where p.spid = spid and p.addr = a.paddr and a.STATUS = ACTIVE and a.sql_address =b.address order by address, piece; 数据库无法连接数据库无法连接，一般可能是如下原因造成：（1）数据库宕了（2）监听异常（3）数据库挂起（4）归档目录满（5）数据库或应用主机的网卡出现问题不能正常工作（6）应用主机到数据库主机的网络出现问题。 1、数据库宕了立即启动数据库。 2、监听异常此时一般体现为：监听进程占用CPU资源大；监听日志异常。此时，立即重启监听，监听重启一般能在1分钟之内完???。 3、数据库挂起立即重启数据库。 4、归档目录满（1）在没有部署OGG数据同步的情况下，立即清理归档日志文件。（2）如果部署了OGG数据同步，查看OGG正在读取的归档日志文件，立即清理OGG不再需要的日志文件。 5、数据库或应用主机的网卡出现问题不能正常工作。立即联系主机工程师处理。 6、应用主机到数据库主机的网络出现问题。立即联系网络维护人员查看。 CRS/GI无法启动对于10g及11gR1版本的CRS问题 1、进入/tmp目录下，看是否产生了crsctl.xxxxx文件如果有的话，看文件内容，一般会提示OCR无法访问，或者心跳IP无法正常绑定等信息。 2、如果/tmp目录下没有crsctl.xxxxx文件此时查看ocssd.log文件，看是否能从中得到有价值的信息。可能的问题：网络心跳不通。 3、/tmp目录无crsctl.xxxxx且日志中没有报错信息，只有停CRS时的日志信息。此时可能是RAC两个节点对并发裸设备的访问有问题，此时考虑：（1）停掉两个节点的CRS。（2）两个节点先同时去激活并发VG，然后再激活VG。（3）重新启动CRS。对于11gR2的GI问题分析$GRID_HOME/log/nodename目录下的日志文件，看是否能从中找出无法启动的原因。常见问题： 1、心跳IP不同。 2、ASM实例无法启动。对CRS的故障诊断和分析,参加本文档中RAC部分的MOS文档. 数据库响应慢应急处理步骤：（1）找到占用CPU资源大的sql或者模块，然后停掉此应用模块。（2）如果属于由于种种原因引起的数据库hang住情况，立即重启数据库，此时重启需要约15分钟时间。重要说明：如果重启数据库的话，会有如下负面影响：（1）要kill掉所有连接到数据库中的会话，所有会话都会回滚。（2）立即重启的话，不能获取并保留分析数据库挂起原因的信息，在后续分析问题时，没有足够信息用于分析问题产生的根本原因。一般正常重启的话，都需要手动获取用于分析数据库重启原因的信息，以便编写分析报告，但是在最长情况下，获取日志信息可能就要40分钟时间。此时一般做systemstate dump，且如果是rac情况的话，需要2个节点都做，且需要做2次或以上。常规处理步骤，分如下几种情况处理：（1）所有业务模块都慢。（2）部分业务模块慢。（3）数据库hang住。所有业务模块都慢此时首先查看系统资源，看是否属于CPU资源使用率100%的问题，如果是，参考本章“CPU使用率高的问题”解决办法。如果系统资源正常，那很可能是数据库hang住了，此时参考数据库Hang部分。部分业务模块慢分析运行慢的模块的sql语句：（1）看是否是新上的sql。（2）看执行计划是否高效。（3）优化运行慢的模块的sql语句。数据库hang住应急处理方式：重启数据库。常规处理方式：（1）分析alert日志，看是否能从alert日志中，可以很快找到引起问题的原因。（2）做3级别的hanganalyze，先做一次，然后隔一分钟以后再做一次。并分析hanganalyze 生成的trace文件，看是否可以找到引起数据库hang 住的会话的信息。（3）做systemstate dump 此时生成systemstate dump的时间会比较长，尤其是在会话数量较多的情况下。且生成dump文件的大小较大，在G级别以上。在生成一次以后，过一