阿里百万级服务器自动化运维系统StarAgent揭秘.docVIP

  • 14
  • 0
  • 约5.57千字
  • 约 25页
  • 2018-06-06 发布于江西
  • 举报

阿里百万级服务器自动化运维系统StarAgent揭秘.doc

阿里百万级服务器自动化运维系统StarAgent揭秘.doc

双11黑科技,阿里百万级服务器自动化运维系统StarAgent揭秘 摘要: 还记得那些年我们半夜爬起来重启服务器的黑暗历史吗?双11期间,阿里巴巴百万量级主机管理能安全、稳定、高效,如丝般顺滑是如何做到的?阿里巴巴运维中台技术专家宋意,首次直播揭秘阿里IT运维的基础设施StarAgent,详细分析StarAgent是如何支持百万级规模服务器管控?如何像生活中的水电煤一样,做… 导读:还记得那些年我们半夜爬起来重启服务器的黑暗历史吗?双11期间,阿里巴巴百万量级主机管理能安全、稳定、高效,如丝般顺滑是如何做到的?阿里巴巴运维中台技术专家宋意,首次直播揭秘阿里IT运维的基础设施StarAgent,详细分析StarAgent是如何支持百万级规模服务器管控?如何像生活中的水电煤一样,做好阿里运维的基础设施平台? 嘉宾介绍? 宋健(宋意):阿里巴巴运维中台技术专家。工作10年一直专注在运维领域,对于大规模运维体系、自动化运维有着深刻的理解与实践。2010年加入阿里巴巴,目前负责基础运维平台。加入阿里后曾负责:从零建立支付宝基础监控体系、推动整个集团监控体系整合统一、运维工具测试PE团队。 StarAgent 从云效2.0智能化运维平台(简称:StarOps)产品的角度来看, 可以将运维划分为两个平台,基础运维平台和应用运维平台。基础运维平台是统一的,叫StarAgent,它可以当之无愧的说是阿里巴巴IT运维的基础设施。 从1万台服务器发展到10万台,又逐步达到百万级服务器,基础设施重要性并不是一开始就被意识到的,是逐渐被发现的过程。无论是运维系统稳定性、性能、容量显然已经无法满足服务器数量和业务的快速增长。在2015年我们做了架构升级,StarAgent系统成功率从90%提升到了99.995%,单日调用量也从1000万提升到了1亿多。 服务器规模达到百万级的企业,在全球应该也是屈指可数的,而且很多企业内部又按业务做了拆分,各业务管理自己的服务器,一套系统管理百万台机器的场景应该更少,因此我们没有太多可以借鉴的东西,大部分情况都是自己在摸索中前进,我们的系统也是在这个过程中一步步演变成今天这个样子。 产品介绍? 如上图所示,StarAgent分了三层:主机层、运维层、业务层,各团队按分层的方式进行协作,通过这个图可以大致了解StarAgent产品在集团所处的位置,是集团唯一官方默认的Agent。 主机层:指所有服务器,每台机器上默认安装了我们的Agent。? 运管层:指运维管控系统,包括应用运维体系、数据库运维体系、中间件运维体系、安全体系,各专业领域产品有独立Portal,通过StarAgent来实现对服务器的操作。? 业务层:指各个BU的业务,大部分BU会直接使用运维层的管控系统,但有的BU可能会有些个性的需求,所以也会有基于下层能力封装出面向自己业务的一个专用运维portal。 应用场景 StarAgent贯穿整个服务器的生命周期: 资产核对:服务器上架后会设置为网络启动,然后会加载一个mini的OS在内存中运行,这个OS中就已经包含了我们的Agent,OS启动后就可以下发指令来采集服务器的硬件信息做资产核对,如CPU、内存、磁盘的厂商及大小信息等。? OS安装:交付业务前会先安装OS,安装什么样的OS也是向这个内存中的Agent下发命令实现的。? 环境配置:OS安装完成后像机器上的账号、通用运维脚本、定时任务等基础环境的初始化。? 应用发布:应用配置与软件包的上线发布。? 运行监控:上线后应用与业务的监控脚本、监控Agent的安装。? 日常运维:登录服务器、单机、批量等日常运维操作,包括业务下线前的清理工作等。 产品数据? 这也是我们产品在阿里内部的一些数据,每天有上亿次的服务器操作,1分钟可以操作50万台服务器,插件有150多个,管理服务器规模在百万级,Agent资源占有率也特别低,支持Linux/Windows主流发行版。 产品功能? StarAgent核心功能可以总结为两大块:管控通道和系统配置。这与开源的saltstack/puppet/ansible等配置管理产品类似,我们做的更精细一些。 管控通道:所有运维操作最终都会转化为命令到服务器上去执行,这个命令通道是全网唯一的,这里会有相应的用户权限控制、操作审计、高危命令拦截等能力。? 系统配置:公共运维脚本、定时任务、系统账号、监控Agent等等,这些配置会在Agent启动后自动初始化,OS中默认打包有Agent,所以可以做到开机后全自动完成服务器运维基础环境的初始化。? 按照Portal、API、Agent细分后的功能列表,Portal主要给一线开发与运维同学使用, API更多是给到上层运维系统来调用,Agent代表每台机器上直接可以使用的能力。 Portal

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档