- 1、本文档共43页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
践行深度用云
主机上云
运维现代化核心能力
目录CONTENTS
目录
05-08
主机上云带来的运维新挑战
挑战1:如何基于应用视角设计高可用上云方案与高可靠运维保障方案
挑战2:云平台技术栈快速增厚,如何有效进行全链路可视监控
挑战3:云网深度融合,如何快速发现、定位、恢复问题
挑战4:如何应对运维安全与租户安全的双重挑战
09-43
主机上云运维现代化核心能力
平台运维现代化
全链路运维监控构建从应用到云平台的全栈感知能力
基于故障模式库和云网一体化运维实现确定性故障恢复
基于一体化风险库和混沌工程进行预见性风险治理
应用运维现代化
运维规划前置到设计阶段,业务可靠性来源于运维与设计的融合
借助运维数仓构建应用可用性监控管理体系,实现业务故障实时感知定界
面向故障全生命周期,全方位提升故障感知、诊断、恢复智能化水平
安全运维现代化
全视角运维安全体系设计构筑金融云运维安全堤坝
体系化、智能化安全运营为云上业务保驾护航
44
结语
主机上云带来的运维新挑战
挑战1:如何基于应用视角设计高可用上云方案与高可靠运维保障方案
主机上云的最大挑战就是核心应用上云后的可用性管理。随着原来运行在大机上的应用不断迁移上云,云上的业务可用性等级要求被提升到了新的高度,传统的运维手段已经无法满足核心业务N个9的可用性目标。可用性管理前置到了系统设计乃至应用设计阶段。
即便如此,可用性管理依然面临着成本、技术和管理的三重挑战。
首先,无论是备份、主备、多活还是业务单元化改造,所有的高可用的架构设计都需要投入高昂的成本,高可用的效果和技术方案的投入成本成正相关关系。如何平衡高可用的投入与产出就成为IT管理者在高可用管理过程中的重要难题。
其次,高可用设计是一系列技术方案的组合,从底层网络设计、到云服务的有效运用以及高可用技术工具的选型,从业务部署架构的改造到上层业务的单元化改造,每个层次都涉及多种技术的使用与配合。如何让现有的技术手段以及云服务发挥最大的效能,如何基于先进的单元化设计理念达成核心应用N个9的可靠性也是IT管理者面临的难题。
最后,服务SLA(ServiceLevelAgreement,服务水平协议)的达成还需要有相匹配的管理手段与工具,如故障模式库、演练工具等资源作为支撑,不但要能有效跟踪度量SLA的实际效果,还需要持续、主动发现可用性风险的机制与工具,在可用性管理的过程中实现数据积累和能力演进。
挑战2:云平台技术栈快速增厚,如何有效进行全链路可视监控
随着主机上云和业务云化转型的持续深入,分布式数
据库、中间件、AI、大模型等各种云原生技术被广泛应用。新服务、新技术的迭代加速,犹如一柄双刃剑,在助力业务快速发展、快速创新的同时,也带来了系统技术栈复杂度的急剧提升,给传统的IT运维方式带来巨大冲击。
例如,应用的微服务化改造,带来微服务数量的指数级增长,应用的调用层次和调用关系变得冗长;分布式云原生的深度应用,使得业务链路更加复杂。当上层业务应用出现故障时,排障过程可能涉及从应用到网络的完整链路,这其中包含业务应用、云服务实例、云基础设施和服务器、网络、存储等物理设备。
典型的业务流量路径如:应用容器PaaS实例虚拟机服务器虚拟网络物理网络。在针对这个路径的运维实际工作中,应用、虚拟机软件提供方、服务器和网络设备提供方常常是各管一段,整个业务从上到下的全栈调用路径往往是个黑盒,导致故障定位定界困难,或者恢复时长无法控制。
面对IT系统复杂的技术栈及海量的运维对象,做到软硬件运维对象的统一管理,指标、告警、日志、调用链、拓扑等运维数据的统一汇聚和分析,构建全链路故障感知、全栈故障可视的运维体验,对于金融主机上云过程中的运维工作至关重要。
挑战3:云网深度融合,如何快速发现、定位、恢复问题
过去一年,在互联网领域发生过多起颇为严重的宕机事故:
2023年3月,某互联网服务商发生机房故障,多个互联网核心应用受到影响,事故持续7个小时,影响约十几亿用户。
2023年11月,某云服务商旗下多款应用出现无法登录故障,事故持续4个小时,这是该云服务商时
隔一年之后第二次出现严重故障。
2023年11月,某互联网服务公司核心应用业务瘫痪接近12个小时,流失千万订单,直接损失上亿元,引发了广泛的社会关注。
总结上述这些事故,它们都具备了如下几个特点:
事故影响范围巨大,社会反响强烈,更有甚者还会对社会的衣食住行产生严重影响。
事故影响时间较长,业务恢复周期以数小时计,严重者故障恢复时长达到了12小时。
造成巨额经济损失,负责人被处分、问责。
随着上云进程的逐渐深入,金融企业开始将核心应用搬迁上云。核心应用一般有着规模大、分布式、架构复杂等特点,这一点和互联网业务非常相似,上述互联网的故障也在时刻给金融核心应用的运维敲响
您可能关注的文档
- 2025年春节假期楼市报告.docx
- 《抖音奢侈品季度热点冬季刊》.docx
- 2024年度中证高收益债券市场分析报告.docx
- 2024年资产证券化发展报告.docx
- 中国内地酒店市场2024年回顾与2025年展望.docx
- Grok系列大模型发展历程与技术演进研究报告.docx
- 2024中国海归就业调查报告.docx
- 中国新型灵活就业报告.docx
- 谨慎乐观:中国消费市场回暖中.docx
- 20250217-数百会国外行业热点洞察(2025年第4期总第49期).docx
- 220kV变电站主变压器泡沫喷淋灭火系统防误动控制方案研究.docx
- 2024消防水泵房施工方案.docx
- 密闭电石炉净化系操作说明--课件.ppt
- 小儿大动脉炎的科普知识.pptx
- 【备战25年高考数学】题型06 7类三角函数与三角恒等变换解题技巧(原卷版).docx
- 【备战25年高考数学】题型06 7类三角函数与三角恒等变换解题技巧(原卷版) (2).docx
- 2011年高考数学试卷(理)(天津)(空白卷).docx
- 【备战25年高考数学】题型08 10类球体的外接球及内切球解题技巧(解析版).docx
- 【备战25年高考数学】题型09 6类圆锥曲线离心率解题技巧(解析版).docx
- 【备战25年高考数学】题型08 10类球体的外接球及内切球解题技巧(原卷版).docx
最近下载
- 2025年黑龙江交通职业技术学院单招职业技能测试题库带答案(新).docx VIP
- 2024年泸州中考数学试题及参考答案.doc
- 医用面膜培训ppt课件.pptx
- 教电馆200555号-胜利教育管理中心.DOC
- 智能制造与智能化焊接技术基础.pptx
- 功率因素校正(PFC)电路-PFC的工作原理课件.pptx
- 工伤保险医疗(康复)待遇申请表.doc
- 【数学】第六章平面向量及其应用单元测试-2023-2024学年高一下学期数学人教A版(2019)必修第二册.docx VIP
- 三亚航空旅游职业学院单招《语文》考试参考题库资料(含答案).pdf
- GB50457-2019医药工业洁净厂房设计标准.pdf VIP
文档评论(0)