- 13
- 0
- 约4.05千字
- 约 35页
- 2023-07-01 发布于北京
- 举报
阿里巴巴调度与集群管理系统 SigmaLiping Zhang张瓅玶Principal Engineer, Alibaba 阿里巴巴Liping Zhang 张瓅玶Alibaba Principal Engineer阿里花名谷朴。 2017年加入阿里巴巴。 阿里巴巴系统软件部研究员 ,调度系统首 席架构师。之前在Google的基础设施事业群的集群管理部门工作了5年多 ,并领导了资源管 理和优化调度团队 ,负责Borg以及基础存储资源的优化 ,负责了FlexBorg, Autoscaling等多个产品。加入Google前在加州大学伯克利分校从事智能系统的 研究工作。本科和博士毕业于清华大学。调度系统业界现状? 开源领域 :Kubernetes ,Docker Swarm, Mesos, Yarn等? 闭源 ,基于开源的改造或者开源兼容系统 :Borg ,Fuxi ,Sigma等? 在线和离线任务混部 :已知主要是Borg? 资源利用率状况 :Borg领先真正的挑战? 在实际工程中落地 ,实现资源效率和运维效率的提升? Sigma调度系统整体架构和历史演进? 架构和实现的特点? 调度及资源优化? 展望阿里调度系统整体架构和历史演进历史状况? 历史状况? 各个部门资源池独立? 独立研发 ,多套调度系统? 容器演进 :T4- PouchBU1T4分组1 (CPU:1%)T4分组2 (CPU:20%)…..BU2T4分组1 (CPU:0.5%)物理机分组1…..其它BU …分组1,2,3,4 …物理机..…..宿主机物理资源各BU??彼此割裂使?大量各种形式的T4分组集合(含 蚂蚁) + 众多物理分组阿里调度系统整体架构和历史演进l问题 :ü规模:各T4分组规模不一,大部分都是小规模:资源碎片化。ü调度:T4分组内小规模调度,核心应用打散受限。ü资源分配:双11期间参差不齐:2交易相关CPU充分售卖,无空闲CPU。2但众多T4分组,宿主机尚未分配容器实例。ü资源利用率非常不均衡:2部分分组CPU满负载运行(高达45-50%)2但相当多的分组CPU几乎完全空闲系统整体架构和历史演进l改变 :云化架构 ,混合云ü规模:统一大资源池模式。ü调度:大资源池下,Sigma调度对核心应用的各 种策略保障,得以更充分地发挥价值。ü资源分配:双11充分使用了所有资源,没有闲 置。ü资源利用率:资源充分均衡使用ü离线和在线任务开始混部Sigma的双11统— 资源池交易逻辑区域公共逻辑区域其它专属资源池专用资源池1专用资源池2Sigma统筹物理资源 收拢统?资源池Sigma系统整体架构和历史演进Cl/CDPublish OperationSigmaMasterApi ServerPersistentStoreDC1O 兼容Kubernetes APl, 和开源社区共建O 采用阿里Pouch容器(兼容OCl标准) https:/// alibaba/pouch .SchedulerAlgorithm/MLNCNCSigmaSlaveNCAgentBossHostPouchPouchUCPCMDBlPAMAlikernellmage ManagerDistributeSigma系统整体架构和历史演进O 业务架构特点: 业务多样化O 业务场景复杂? Sigma调度系统整体架构和历史演进? 架构和实现的特点? 调度及资源优化? 展望Sigma架构和实现特点? 灵活可配置的调度策略? 双11给Sigma调度系统带来的挑战以及Sigma的解决方案? 复杂约束下的批量调度优化? 精确高水位排布? 大规模快速建站灵活可配置的调度策略? 支持多样化的应用场景 :电商交易、 中间件、广告、搜索、数据库、 日 常测试容器? 调度优选模型的建立? 以插件化的方式基于外部输入实时调控集群打分模型? 可配置的优化调度策略 ,解决资源碎片率高和扎堆严重的问题灵活可配置的调度策略? 业务团队开发出新的策略 ,可立即配置生效 ,不需要代码发布? 所有调度策略可配置? 支持的策略 :? 应用部署 :亲和、 互斥、独占、 P0M0 (最重要优先级应用 )? 其他策略 :资源需求 ,容器创建特殊需求 ,Ip隔离需求? CPU精细调节 :CPUSet独占、均衡、 SameCore等策略Sigma系统整体架构和历史演进资源交付链路用户发起资源需求资源需求接入 1资源交付Sigma策略链路用户录入资源需求Sigma运维录入应用规则规则录入和维护O 调度系统的架构和设计满足业务场景需要Sigma调度SigmaETCD集群Sigma Master 规则自动同步至ETCDApiServer应用基本需求Sigma标签键值的统一管理策略读取|写入|编辑|删除API应用 元信息应用应用间CPU高级策
您可能关注的文档
- C2C电商平台推荐系统架构演进_架构师峰会_北京站.pptx
- Cloud Native架构的演进之路_架构师峰会_北京站.pptx
- FreeWheel OLAP实践_架构师峰会_北京站.pptx
- FreeWheel在微服务架构下的前端改造实践_架构师峰会_北京站.pptx
- MySQL数据库架构的演化观察_架构师峰会_北京站.pptx
- PaddlePaddle Towards a Deep Learning Compiler for the Cloud_架构师峰会_北京站.pptx
- Pouch和阿里容器技术演进_架构师峰会_北京站.pptx
- RadonDB新一代分布式关系型数据库_架构师峰会_北京站.pptx
- tutorabc微服务平台架构实践_架构师峰会_北京站.pptx
- UC浏览器容器化架构演进之路_架构师峰会_北京站.pptx
原创力文档

文档评论(0)