阿里混部技术最佳实践_架构师峰会_北京站.pptxVIP

  • 0
  • 0
  • 约3.87千字
  • 约 39页
  • 2023-07-01 发布于北京
  • 举报

阿里混部技术最佳实践_架构师峰会_北京站.pptx

阿里混部技术最佳实践吕奇(花名 :潇谦)阿里巴巴高级技术专家吕奇花名潇谦 ,阿里巴巴高级技术专家2014年加入阿里巴巴 ,是阿里巴巴大规模混部及容器化的项目 负责人 ,3次参与双11大促 ,目前主要负责阿里巴巴规模化混部、 在线存储计算分离、资损防控体系、统一日志中心。? 混部简介? 混部的历程? 混部的架构? 调度与内核? 未来的展望为什么要混部各种数据报告都显示目前数据中心的机器利用率平均在 10%左右容灾、 峰值 ,机器数冗余大另一方面 ,大数据的普及 ,离线分析作业越来越多 ,成本极高如何解决 ?什么是混部在线服务实时计算离线计算把集群混合起来 ,将不同类型的任务调度到相同的物理资源上 ,通过调度 ,资源隔离等控制手段,保障SLO ,极大降低成本 ,我们称这样的技术为混部( Co-loaction )在线离线的混部就像是石块 ,且延时敏感 ,利用率不高 ,不可重跑就像水和沙子 ,且延时不 敏感 ,利用率高 ,可重跑当在线不忙时 ,离线就抢 占 ,反之则返还 ,甚至反哺是可以进行混部 ,并带来 成本收益的两个前提条件在线优 先级?离线优 先级低低优先 级牺牲优先级 互补性混部的使用场景30%成本下降日常可以提升利用率、 大幅度降低成本10%交易流量 大促时可以通过挤占 离线的方式来抗住峰 值带来的压力? 混部简介? 混部的历程? 混部的架构? 调度与内核? 未来的展望混合云业务层在线服务运维计算产品运维云服务运维计算任务调度在线服务调度Cloud open API双11每年都在创造奇迹 ,但是高峰却只有 1小时左右。一方面开始使用阿里云的公有云资源的弹性能力降低成本。另一 方面 ,我们也开始研究混部的相关 技术。ECSNCT4保有云公有云在线服务与计算任务 当保有云不足时32.5万笔/秒Google与Borg2015年 ,Google发表了Borg论 文 ,其中就提到了在线服务与计算 任务之间的混合运行 ,也就是我们 说的混部技术。Borg论文中描述了Google由于采 用了这项技术 ,为Google整体节省 了20%-30%的机器规模混部的四年历程大规模使用20%线上验证200 2017线下测试 2016启动研究常混部的效果混部 :40%非混部 :10%30%干扰性的效果影响5%以内? 混部简介? 混部的历程? 混部的架构? 调度与内核? 未来的展望基于容器的Sigma? 兼容Kubernetes API , 和开源 社区共建? 采用阿里Pouch容器 (兼容OCI 标准)? 通过阿里多年大规模及 双11验证基于进程的FuxiCLTRPC_wrapper? 面向海量数据处理和大规模计 算类型的复杂应用 FuxiMaster? 提供了一个数据驱动的多级流 水线并行计算框架 ,在表述能 力上兼容MapReduce ,Map- Reduce-Merge ,Cascading , FlumeJava 等多种编程模式。ClusterNodeClusterNodeClusterNodeClusterNodeFuxi AgentFuxi AgentFuxi AgentFuxi Agent? 高可扩展性 ,支持十万以上级 的并行任务调度 ,能根据数据 分布优化网络开销。 自动检测 故障和系统热点 ,重试失败任 务 ,保证作业稳定可靠运行完 成。APP MasterAPP MasterAPP WorkerAPP WorkerAPP WorkerAPP WorkerAPP Worker混部的整体架构? 通过sigma和fuxi完成 在线离线的各自调度? 通过零层相互协调资源 配比? 通过调度和内核解决资 源竞争隔离问题Level0-ControllerSigmaMasterFuxiMasterLevel0-DataLevel0-AgentFuxiAgentSigmaAgentFollow the OCI standardsRunLXC vLinuxRunCRunVPouchProd JobsPouchPouchJOBNon-prod JobsJOB零层的协调机制sigmaMasterLevel0 ManagerFuxiMaster? 混部集群管理? 各调度租户资源配比? 日常压测大促策略? 异常检测与处理Sigma RMFuxi RMLevel0 RMLevel0AgentFuixAgentsigmaAgent容器容器容器tasktasktask? 混部简介? 混部的历程? 混部的架构? 调度与内核? 未来的展望混部中的两大核心资源竞争主动 ,延时高被动 ,延时低调度通过资源画像 ,在竞争之前 ,尽量减 少资源竞争的可能 性内核在发生资源竞争的极端情况时 , 优先保障高优先 级任务???调度

文档评论(0)

1亿VIP精品文档

相关文档