- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
某银行数据库一键巡检体系
背景与挑战
随着我行业务数字化、互联网化的不断发展以及分布式技术的全面落地,行内数据库体量迅速攀升,数据库的运维难度陡然剧增,运维成本不断增大,现有的运维体系难以维系,对数据库运维巡检工作提出了巨大的挑战。
2.应对方案
互联网的发展、信息安全性提高等因素导致的数据库体量膨胀,不仅是数据库运维工作的挑战,更是运维手段变革的机遇。庞大的数据库数量导致运维人员分身乏术,人力成本的上升也导致无限扩大运维团队的不现实性,一个全面智能、高效快捷的运维工具成了应对目前挑战的最优解。立足于生产实际情况,结合现有的DBPaaS数据库统一管理平台运维平台的巡检工具被提上了研究日程。一个真正满足运维巡检需求的工具,应该具备以下的特性:
扩展性:
完美支持DB2、Oracle、MySQL等传统商用数据库,还支持横向拓展,在未来能够简单、快速地支持更多的开源、国产数据库,不需要在特定数据库查询工具间频繁切换。
兼容性:
工具需要兼容支持数据库的各个主流版本,在数据库技术不断发展演进过程中,数据库版本迭代迅速,缺陷层出不穷,且各版本之间差异明显,新的工具需要能够分辨数据库版本,执行不同命令进行巡检。
全面性:
对数据库进行全面、彻底的检查,在数据库核心关键检查指标的基础上,对不同数据库的特殊架构和特性,进行针对性巡检。
易用性:
工具的目标是将运维人员从繁重、重复的运维巡检工作中解放出来,不是让运维人员重新投入其他的重复工作中,易用性是必然的要求。
在运维难度不断增加、人力成本不断上升的今天,一个巡检结果准确、巡检指标全面、巡检操作智能的巡检工具是必然的运维方向。立足于我行多年运维经验基础之上,充分研讨和精细雕琢之后,决定完成自动化巡检体系建设。自动化巡检体系建设主要分为自动化巡检报告和一键巡检两个重要组成部分,并与DBPaaS数据库统一管理平台有机结合,致力于将运维人员的工作回归运维本质,向运维智能化、自动化方向迈进。
3.一键巡检
智能巡检报表体系在批量巡检、数据整理方面优势突出,但在单库实时性能检测的支持上不够完善上略有不足。为了弥补巡检体系的不足,提升整个运维体系的完整性,我行从DBA实际运维侧重点实际角度出发,总结出一批能标识数据库性能、容量和可用性方面的核心关键,并辅以数据可视化手段,设计了一键巡检系统,进一步提高运维效率、节省运维时间。
关键指标
一键巡检立足于数据库实时情况,对关键指标进行系统分类,便于针对性运维。在一键巡检功能中将关键指标分为可用性状态、数据库服务能力、容量、性能四大模块:
可用性状态:
围绕数据库最核心指标进行巡检,若状态不正常说明出现严重问题,需要紧急维护。
指标名称
作用
数据库状态
最核心指标,数据库是否可以正常连接
实例状态
实例为数据库提供了运行时环境,状态异常会导致数据库无法访问
表空间状态
明确是否存在异常的表空间
表状态
明确库中是否存在异常表
DB2许可认证
明确商业数据库LICENSE认证是否过期,需要及时更新
最近备份状态
明确数据库是否备份成功,防止出现数据库宕机之后数据库无法恢复
数据库服务能力:
决定数据库响应能力的核心指标,并根据历史数据,采用科学方式计算出指标基线参考值,辅助运维人员合理判断数据库情况。
指标名称
作用
TPS
这些指标显示了当前数据库繁忙程度和相应时间,过高将导致数据库出现执行SQL慢等情况,需时刻关注
RSPT
QPS
RQPS
总连接数
显示当前数据库连接数量,展示了数据库可能承受的最大压力
活动连接数
活动连接数是决定当前数据库压力的核心指标
活动连接率
该指标显示了数据库中有效连接的数量,分析是否存在大量无效连接过多占用数据库资源
容量:
包含大表、表分区等可能影响导致数据库容量飙升的指标,需要经常关注,防止数据库容量异常变化。
指标名称
作用
连接数/配置上线
连接数+上限,发现连接数是否到达警戒值
实例内存使用率/数据库内存
内存是数据库运行的关键指标,不足会导致数据库无法使用,需根据实际情况调整
日志空间使用率
数据库操作都需要日志存储,方便数据库维护操作,日志使用空间过高需要及时扩充
文件系统使用率大
主机文件系统剩余空间不足将导致数据库无法操作
DMS表空间使用率大
DMS表空间需要DBA手动维护,表空间满会导致数据库无法操作,需要关注使用率并及时扩充表空间大小
表分区接近限制值
分区表是分散存储数据、提高查询效率的方式,但需要关注即将达到限制的分区表,防止无法使用
大表
大表是导致容量变大的核心原因之一,大表数量过多需要考虑清理
性能:
锁等数据库正在执行的消耗性能操作,评估数据库当前运行状况。
指标名称
作用
CPU、内存
主机是数据库的依托,主机的性能是影响数据库性能的重要因素
Bufferpool
缓存是提高SQL执
原创力文档


文档评论(0)