电装悉尼数据中心故障分析及灾备方案建议.pptx

电装悉尼数据中心故障分析及灾备方案建议.pptx

电装OCI悉尼故障说明和后续灾备方案建议

议程电装OCI悉尼故障说明电装灾备方案说明

电装OCI悉尼故障说明说明项具体说明故障的发生及持续时间2023/8/3011:19:50UTC开始,持续约28小时19分完全恢复影响业务系统DSF、G-FAST?PM、用户基盘用户影响在OracleOCI上服务器的相关系统都无法使用真实原因分析结果雷击造成澳大利亚东部(悉尼)数据中心停电,七台冷却器中有五台发生故障,致使数据中心机房温度迅速升高,超出了标准工作范围。为防止出现永久性硬件故障,关键网络设备及服务器自动关闭,进而导致客户在此期间无法获得服务。电装的OCI应用在初期构建时没有做多Region的容灾处理,所以导致单Region发生故障后整体系统无法使用,据了解之前由于预算原因,所以只部署了单数据中心应用。悉尼数据中心改善措施数据中心运营:对冷却器控制进行了修复,以便在电源事件期间重新启动检查冷水机控制操作顺序和泵控制改进警报机制以减少检测时间改进通知和升级程序,包括加强培训继续与数据中心提供商合作,完善可靠性提升计划网络:加强温度变化率监测启用限制以处理突增的流量块存储和计算:开发新功能以提高客户可见性并自动恢复虚机Kubernetes服务:通过自动化测试套件来提升部署Bug修复身份:实施多区域控制台功能,使客户能够从外部受影响的地区启动故障转移文件存储服务:通过自动化提高恢

文档评论(0)

1亿VIP精品文档

相关文档