构建多公有云系统部署实践
上海曙安数据服务有限公司
叶向宇
关于我
• 过去:
• 联想集团服务器事业部
• 微软中国技术中心
• 惠普中国技术中心
• 微软云计算事业部
• 现在:
• 上海曙安数据服务有限公司
• VC3多云管理平台架构师
今天的话题
• 我们的目标是什么?
• 实现业务 目标过程中遇到了什么问题?
• 我们是如何思考的?
• 我们是如何实践的?
• 我们下一步的计划是什么?
• 单数据中心,VMWare环境 • 切换云供应商
• 宕机4小时 • 再次宕机
1 3
2 4
• 单云供应商
• 再找一家云供应商???
• 宕机6小时
我们如何走到这一步?
从宕机中学到的几件事 (1)
SLA 99.95% $$
• 供应商SLA不是保证不宕机,而是索赔的依据
从宕机中学到的几件事 (2)
内存颗粒无故障工作
24小时无内
1000台服务器 64GB Mem =
存故障 87.6 年
• 小范围宕机几乎不可避免
从宕机中学到的几件事 (3)
/status-of-compute
• 大范围宕机发生可能性依然存在
“不宕机是核心需求”
“如果一朵云宕机不可避免
那就把应用部署到多个云上”
目标
• 多数据中心多活
• 节省成本、可负担的解决方案
• 在灾难发生的过程中,如果无法达到完全可用,则至少应该保证部分可用:
• 部分业务功能可用
• 部分客户业务可用
• 部分数据可用
• 尽量少的人工干预
App
Data
App
App App
GIT/Ansible
GSLB
App App
GIT/Ansible
GSLB
User User
301
App App
GIT/Ansible
Data
?
Master / Slave
Data
原创力文档

文档评论(0)