基于开源软件的自动化运维系统方案.docx

? ? ? ? ? ? ? 基于开源软件的自动化运维系统方案 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 目 录 TOC \o 1-2 \h \z \u 基于开源软件的自动化运维系统方案 1 一、背景与痛点 3 二、总体规划 4 三、自动化运维系统实践 6 1、理顺双数据中心软硬件资源及关联关系,将数据纳入自主开发的信息系统管理(CMDB),结合自动化运维平台对计算实例中软硬件资源及软件版本的自动化采集和对接将来的RFID射频定位数据,自动化地精准软硬件资源的信息数据。消除目前的信息资源数据难管理、难使用、准确性低的痛点。 7 2、自主实现监控点的自动发现、自动化运维节点自动发现,并与CMDB实现联动,可视化展现尚未监控和纳入自动化运维体系的计算实例。消除目前基础监控盲点多,覆盖面不全,信息系统故障得不到及时响应,告警信息无法正确匹配软硬件资源而产生误告的痛点。 11 3、自主实现批量自动化运维一键式部署、批量监控一键式部署、批量备份一键式部署、批量用户一键式创建、批量常用软件安装和配置。将运维人员从原来繁杂的部署、安装、创建、配置中解放出来,更高效地完成既定的工作任务,将重心转向更深入、更精细化的运维当中去,运维人员忙而不乱。 13 4、将常用运维批量查询及常用批量操作菜单化,简便运维操作,同时通过菜单背后的标准化运维命令,降低直接运维操作风险,调动更多的运维人力参与运维工作,释放更多操作员的主观能动性,体现团体运维的价值和力量。 14 5、自主实现故障日志一键式收集、运维一键式巡检及巡检报告生成、集中归档与查询功能。巡检人员无需登陆每个系统逐个巡检,通过自动化运维平台的操作菜单,批量输入IP地址,即刻开始自动巡检其上可能存在的数据库、中间件、操作系统和高可用架构软件等,并生成巡检报告。巡检报告可通过该平台集中归档和查询。通过该功能降低了可能因直接登陆巡检误操作带来的衍生风险,同时提高了巡检效率,避免了巡检遗漏等现象。 16 6、自主实现系统上线配置与基线自动化、批量核查。应用的资源和环境申请源源不断,导致了运维人员大量时间花费在环境部署和复核方面,未及时复核的、不满足配置与基线规范的系统往往存在较大的系统、数据库、中间件、高可用等安全风险隐患,随着系统运行和业务激增,业务故障后,方才发现配置的不合规性。通过该功能能够在系统上线前,自动化比对标准规范与实际落地的配置参数间的差异性,即刻进行整改,完成标准的应用环境交付。 17 【摘要】本文介绍了基于开源Ansible软件和CMDBuild软件,自主部署的自动化运维系统的实践经验。 一、背景与痛点 随着我行业务的迅猛发展,金融科技引领的效果不断增强,业务系统数量不断攀升,对应的软硬件基础架构也越来越庞大,各系统相应的运行与维护工作的难度和复杂度也与日剧增,规范化、精细化运维得不到有效施展,越来越多的运维痛点问题开始不断涌现,与此同时带来各种运维风险,影响业务连续性。其痛点主要体现在以下六个方面: 1、信息资源数据难管理、难使用、准确性低的痛点。 (1)运用多张EXCEL表格维护几千台服务器和100余个应用系统的软硬件资源信息,信息无法共享和及时同步更新,数据错误率高,容易造成运维工作误判。 (2)为保证EXCEL表格数据准确性,需经常进行信息资产盘点,耗时耗力。 (3)数据间的关联无法得到体现,数据用不活,更无法被信息系统利用。 2、基础监控盲点多,覆盖面不全,信息系统故障得不到及时响应,告警信息无法正确匹配软硬件资源而产生误告的痛点。 (1)信息资产多,信息更新快,监控部署和清除跟不上变化,需经常查漏补缺,未及时被监控的系统风险极大。 (2)未被自动化运维系统管控的计算实例,无法自动采集信息、批量查询、操作和巡检等,需要人工梳理和发现。 (3)未被监控和自动化运维的计算实例无法通过有效地手段告知运维人员。 3、运维人员忙乱于繁杂的软硬件与运行环境的部署、安装、创建与配置,整体运维效率低下,精细化水平不高。 (1)运维人员的大部分精力耗费在运维环境部署上,尤其体现在新系统上线频度高,上线量和环境部署量大时,因时间不足,得不到更高运维价值的锻炼,运维眼界和思路得不到开拓。 (2)单个系统逐个手动部署、安装、创建和配置,容易遗漏、错配,或者配置需保持一致的多台计算实例产生差异化。 (3)监控、备份等运维服务得不到重视,运维人员在大量完成应用环境准备后,无精力去部署监控和备份,造成系统上线后无有效监控的问题。 4、存在直接运维操作风险,运维人员水平参差不齐,无法调动更多的运维人力参与运维工作,释放更多操作员的主观能动性,团体运维的价值和力量体现严重欠缺。 (1)运维人员少,工作压

文档评论(0)

1亿VIP精品文档

相关文档