- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
治愈型任务应用场景2-主机进程重启 24 Part 业务描述 Zabbix监控到服务器某进程不能正常运行,自动化运营平台重启进程服务 业务需求 1.业务网管推送告警信息至作业平台:包含告警服务器ip、告警业务类型、告警进程名、告警联系人、联系方式、告警级别,针对每一个告警进行治愈配置 2.运维工程师提供各服务器被监控程序服务名、安装路径,启动脚本,日志存放位置 3.自动化运维平台提供告警工单接收接口,业务网管告警信息推送 4.云管平台提前配置服务器执行用户:需运管平台提前在各服务器配置agent执行用户并拥有执行权限; 5.Zabbix Server API:zabbix提供接口拉取脚本及接收执行指令 6.自动化运维平台提供API接收zabbix server定时任务执行的结果反馈 执行计划 1.治愈性告警第二阶段执行 2.对服务器进行分批执行,可先10台服务器进行配置,待运行1个周期后获取执行结果 3.对执行结果进行人工确认,无任何异常第二阶段逐步增加,后续分阶段扩展至全部服务器。 目 录 CONTENTS 资源和项目需求 功能模块 服务器 CPU 内存 磁盘 用途 作用平台web及微信服务集群 web应用服务器1 8 32G 200GB 部署作用平台web服务及企业微信服务 web应用服务器2 8 32G 200GB 规则微服务集群 规则接口服务器1 4 16G 100GB 部署规则微服务接口及对外接口集群 规则接口服务器2 4 16G 100GB 规则接口服务器3 4 16G 100GB 配置服务器集群 配置服务器1 4 16G 100GB 部署规则配置服务集群 配置服务器2 4 16G 100GB 数据库主从集群 数据库服务器1 8 32G 500GB 部署数据库服务,主从集群模式 数据库服务器2 8 32G 500GB 缓存服务集群 Redis缓存服务1 4 16G 100GB 部署redis缓存集群 Redis缓存服务2 4 16G 100GB 资源需求 25 Part THANKS * * * * * * * * * * * * * * * * * * * * * * IT自动化运维平台建设解决方案 目 录 CONTENTS 2 3 4 人工运维 自动化运维 智能化运维AIOps 运维工作主要由人工完成,运维人员负责机房、服务器选型、软硬件初始化,服务上下线,配置监控,盯监控等,基本上是遇到什么问题解决什么问题。 自动化运维就是把周期性、重复性、规律性的工作都交给工具去做,具体来说有应用系统维护自动化,巡检自动化和故障处理自动化这三个方面; 自动化运维依赖于管理平台,最可终达到提升运维效率的目的。 AIOps利用大数据和机器学习技术,实现海量数据的异常检测和多维度关联分析,它将增强或部分取代 ITOM 领域的三个重要能力,即监测,服务管理和自动化; 进一步帮助 运维人员准确甄别系统异常,快速定位故障根因,并对潜在系统风险进行预警,以实现 IT 和业务的持续洞察和改进。 当前IT运维的整体发展趋势是向自动化迭代,并向智能化演化; 目前大部分组织的IT运维正处在从人工运维向自动化运维的发展阶段; 有部分组织已经基本实现了自动化运维,正在向智能化运维升级,而也已有少量企业已经构建了初步的智能化运维体系。 IT运维的总体发展趋势 1 Part 运维现状及痛点 2 Part 承担了包括实体机、虚拟机、网络设备、数据库、中间件等1.5万台主机和数通设备的基础作业维护和应用故障维护工作。目前通过ZABBIX(监控)+业务网管系统(告警)实现监控收集、上报、处理的闭环流程。具体流程如下: 发生告警 值维监控 运维工程师 研发工程师 告警恢复 zabbix采集到的信息生成告警,输出至业务网管 通过电话、微信方式通知运维工程师处理 运维工程师分析处理,或协调研发工程师处理 运维过程缺乏回溯:缺乏对运维操作过程的管控。处理结果无痕迹,缺乏经验成果沉淀。 日常运维缺乏自动化:缺乏自动周期性作业巡检任务及故障处理脚本,日常维护作业依靠每个运维工程师人为判断并执行脚本。 规范性 技术性 问题分析及解决思路 3 Part 1 2 3 周期性任务执行结果无法监控 周期性定时任务执行脚本和配置均由各运维工程师控制,执行结果无法监控,无系统化的统一管理配置 告警处理过程缺少监控记录 现阶段由运维工程师对告警信息进行定位分析,根据故障分析结果进行处理。无系统化的根因和经验沉淀。若发生人员流动,告警无法处理无法进行平滑交接 被动式的告警处理方式,非工作时间告警处理无法保证在第一时间被处理 非工作时间告警处理传报响应慢 构建自动化运维平台 1.周期性任务统一管理: 将周期性的日常任务执行和配置通过自动化运维平台来统一管理 2.触发性任务实
文档评论(0)