- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
智能运维
助力业务稳定性提升
与运维成本降低
蚂蚁集团资深技术专家 / 盛延敏(成旻) 博士
Agenda • 1.智能运维的定义和作用
• 2.蚂蚁在智能运维的实践
• 3.未来展望和总结
智能运维(AIOPS)定义
AIOPS 是将人工智能的能力与运维相结合,基于已有的运维数据 (日志、
运维的业务痛点
监控信息、应用信息等)并通过机器学习的方式来进一步解决 自动化运维
没办法解决的问题。即以大数据平台和机器学习 (算法平台)为核心从各
观测性数据乱 预警效率低 个监控系统中抽取数据、面向用户提供服务,以此来提升运维效率。
企业进行分布式架构转型之
告警风暴使得运维人员淹没在大
后 ,大幅提升了研发效率和 量警报 、大量 IT 噪音和分布在
产品迭代速度 ,但同时也因
不同工具中的信号之中,无法识
为复杂的架构设计导致观测
别有效预警 。
数据混乱 ,故障率飙升 。
故障定位难 故障恢复慢
故障定位往往依赖专业的技术 对于已经定位的故障,无法沉
人员和丰富的专家经验 ,耗时 淀应急预案 ,无法 自动根据系
时间长 ,且无法形成有效的知 统当前状态与历史经验给出应
识沉淀 。 急预案推荐 。
IT 运维工具的主要功能正在从数据获取 、数据处理转向数据分析 。
面对海量数据和复杂运维场景 ,智能化已经成为运维工具发展的重要命题 。
AIOPS 于 可 是
AIOps 结合大数据和机器学习 ,可以自动化运维操作流程 ,包括事件关联 、异常检测 、因果推断等 。 Gartner Glossary
可以做什么 收益是什么
监控 根因定位 (Root Cause Analysis ) 1-5-10 :故障快速定位与止血
智能根因定位的作用是通过收集站点历史观测性数据 ,利用机 通过 AIOps 智能根因定位 ,快速发现故障症结所在 ,
器学习的方式训练出站点稳定模型 ,在故障发生时可以快速定 辅助运维人员达到 5分钟故障定位的能力 。同时,结
e 位造成故障的根本原因,并为研发与运维团队提供修复意见 , 合专家经验 ,给出故障应急预案 ,甚至 自动自愈 ,以
c 减少故障的持续时间。 达到10分钟止血的目的。
n
e
g
您可能关注的文档
- 刘金龙-高德的架构变革与性能优化.pdf
- 任龙飞-用户体验数字化建设及提效.pdf
- 张海龙-让玄学更可靠:构建复杂的+LLM+应用.pdf
- 曹冬平-抖音性能分析利器+btrace+探索和实践.pdf
- 杨子奇-沟通的人性之光——AI+难以取代的人际交流能力.pdf
- 马如悦-云原生时代,Apache+Doris+存算分离的全新架构.pdf
- 董善东-阿里云可观测+AIOps+的智能监控和诊断实践.pdf
- 张文涛-面向超级+AI+系统的全闪存储架构设计思考与实践.pdf
- 王元良-增强型+RunC+的最佳实践:克服离线高压力混部场景的关键挑战pptx.pdf
- 艾瑞坤-基于LLM实现的线上项目自我修复与智能容灾的原理与实践.pdf
原创力文档


文档评论(0)