- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
?
? ? ? ?
? ? ?
银行企业级应用运维自动化的关键设计思路与技术方案
? ? ? ?
?
?? ?
? ? ?
? ? ?
目 录
TOC \o 1-3 \h \z \u 银行企业级应用运维自动化的关键设计思路与技术方案 1
1、背景 3
1.1背景分析 3
1.2运维痛点 4
2、建设目标 4
3、设计原则 6
4、关键设计思路 6
4.1面向专业领域的配置库 7
4.2面向对象思维建模 8
4.3运维场景化 11
4.4运维知识的工具化设计 12
5、系统定位 12
6、技术方案 13
6.1功能概述 13
6.2总体架构示意 14
6.3物理架构示意 15
7、主要场景实践 16
7.1发布自动化 16
7.2巡检自动化 21
7.3运维工具箱 23
8、结束语 25
?
?
【摘要】本文阐述了银行自动化运维的设计原则、关键设计思路、技术方案和主要场景实践。内容全面、详细,逻辑清晰,可供行业内相关从业人员借鉴参考。
1、背景
1.1背景分析
随着银行业务的快速发展,支撑业务的IT基础设施的变化节奏也大大加快。运维团队担负着对IT基础设施运维的重要使命,核心任务是保障生产安全运营,并提高软硬件环境的交付质量。
运维管理规模的不断扩大,运维人员的不断扩充,使我们的日常运维工作面临更大的压力与风险。
在很长一段时间里,应用运维尝试通过脚本辅助来提升工作效率,但仍然面临着繁重的工作压力:
(1)、管理工作繁重,所管理的资源类型和数量众多,但是缺乏一个准确的整体资源视图,每次当有用户申请资源时,难以快速地进行分配。
(2)、生产操作以登录生产主机进行手工操作为主,在手工操作时可能存在一些有意或无意的违规操作,给生产环境造成操作风险。
(3)、应用变更是以纸质的变更操作步骤为依据,由运维人员登陆生产系统后进行手动操作,操作过程中对变更前后的环境变化内容没有记录。
(4)、巡检工作通过操作系统的定时任务用脚本完成了数据采集,仍需由专人负责应用系统相关的日报生成与发布。采集的数据项、定时任务没有统一的管理界面,不利于数据采集内容的修订与管理。对日报的查看与分析工作也依托于管理员自觉进行,即使出现问题也没有工作界面进行记录与跟踪。
(5)、数据分析目前主要是通过运维人员的个人经验进行,业务量增长、交易变化等等都依赖于运维人员的个人能力。
1.2运维痛点
在运维管理工作中的主要痛点可以归纳总结为以下几个主要问题:
(1)、手工操作的风险不可控:日常巡检、服务请求、问题查询都通过登录生产主机进行操作。
(2)、运维工作及时性差异:各运维人员管辖的应用系统、主机数量多,巡检工作都是手工进行,无法做到及时有效在系统开门前做全面巡检。
(3)、工作规范性不强:新员工对现有的工作制度、工作流程需要一个逐步适应和熟悉的过程。不同人员对应用系统的运维管理工作细致程度存在差异,缺少统一标准。
2、建设目标
应用自动化运维系统的建设初衷是希望能建设一个服务于运维人员的统一管理工作平台,完成日常的生产系统操作任务,隔离运维人员与生产系统的直接接触。
下图展示了应用自动化运维系统与流程管理工具、监控工具之间的关系,也描述了应用自动化运维系统的功能蓝图。
通过应用自动化运维系统的建设可以提供一种新的IT运维管理和工作模式。在这种模式下,我们的运维工作可以跟流程结合,提供自动化的运维管理手段。主要功能目标可以总结为三个方面:
(一)实现调度自动化
从以前依赖手工的实现转换到通过自动化的工具来实现变更与日常巡检。
(二)实现日常运维工作标准化、规范化
对现有的运维工作事项(包括变更、巡检等)进行梳理和优化,建立标准化的应用自动化运维工作项,以促进日常运维工作的规范化。
(三)实现生产配置统一视图
对全行的服务器、存储、软件资源进行集中管理,形成资源池,集中管理核心的配置信息和关系。
对资源池中各种资源的配置信息进行自动化采集和更新,随时掌握其可用状态。建立资源的整体视图,并通过可视化视图直观展现资源之间(如宿主机与之上运行的虚拟机)的依赖关系以及与业务的逻辑关系。
3、设计原则
运维狭义定义为对IT业务系统支撑环境的运行维护活动。维护的对象包括应用程序、基础软件、操作系统、主机设备、存储设备、网络设备、机房环境等各个层次的运行实体。
运维活动一般由运维人员进行实施,包括上线、更新、下线等。在应用自动化运维的建设中要解决的是运维人员实施的各项运维活动可以由机器替代实施。在日常的运维实践中,利用定时任务、批量脚本等方式做了很多简化人工操作实施的工作,但由于这些活动每次实施的对象/约束条件存在差异,仍然会有大量操作需要人工干预。
原创力文档


文档评论(0)