- 14
- 0
- 约5.57千字
- 约 25页
- 2018-06-06 发布于江西
- 举报
阿里百万级服务器自动化运维系统StarAgent揭秘.doc
双11黑科技,阿里百万级服务器自动化运维系统StarAgent揭秘
摘要: 还记得那些年我们半夜爬起来重启服务器的黑暗历史吗?双11期间,阿里巴巴百万量级主机管理能安全、稳定、高效,如丝般顺滑是如何做到的?阿里巴巴运维中台技术专家宋意,首次直播揭秘阿里IT运维的基础设施StarAgent,详细分析StarAgent是如何支持百万级规模服务器管控?如何像生活中的水电煤一样,做…
导读:还记得那些年我们半夜爬起来重启服务器的黑暗历史吗?双11期间,阿里巴巴百万量级主机管理能安全、稳定、高效,如丝般顺滑是如何做到的?阿里巴巴运维中台技术专家宋意,首次直播揭秘阿里IT运维的基础设施StarAgent,详细分析StarAgent是如何支持百万级规模服务器管控?如何像生活中的水电煤一样,做好阿里运维的基础设施平台?
嘉宾介绍?宋健(宋意):阿里巴巴运维中台技术专家。工作10年一直专注在运维领域,对于大规模运维体系、自动化运维有着深刻的理解与实践。2010年加入阿里巴巴,目前负责基础运维平台。加入阿里后曾负责:从零建立支付宝基础监控体系、推动整个集团监控体系整合统一、运维工具测试PE团队。
StarAgent
从云效2.0智能化运维平台(简称:StarOps)产品的角度来看, 可以将运维划分为两个平台,基础运维平台和应用运维平台。基础运维平台是统一的,叫StarAgent,它可以当之无愧的说是阿里巴巴IT运维的基础设施。
从1万台服务器发展到10万台,又逐步达到百万级服务器,基础设施重要性并不是一开始就被意识到的,是逐渐被发现的过程。无论是运维系统稳定性、性能、容量显然已经无法满足服务器数量和业务的快速增长。在2015年我们做了架构升级,StarAgent系统成功率从90%提升到了99.995%,单日调用量也从1000万提升到了1亿多。
服务器规模达到百万级的企业,在全球应该也是屈指可数的,而且很多企业内部又按业务做了拆分,各业务管理自己的服务器,一套系统管理百万台机器的场景应该更少,因此我们没有太多可以借鉴的东西,大部分情况都是自己在摸索中前进,我们的系统也是在这个过程中一步步演变成今天这个样子。
产品介绍?
如上图所示,StarAgent分了三层:主机层、运维层、业务层,各团队按分层的方式进行协作,通过这个图可以大致了解StarAgent产品在集团所处的位置,是集团唯一官方默认的Agent。
主机层:指所有服务器,每台机器上默认安装了我们的Agent。?运管层:指运维管控系统,包括应用运维体系、数据库运维体系、中间件运维体系、安全体系,各专业领域产品有独立Portal,通过StarAgent来实现对服务器的操作。?业务层:指各个BU的业务,大部分BU会直接使用运维层的管控系统,但有的BU可能会有些个性的需求,所以也会有基于下层能力封装出面向自己业务的一个专用运维portal。
应用场景
StarAgent贯穿整个服务器的生命周期:
资产核对:服务器上架后会设置为网络启动,然后会加载一个mini的OS在内存中运行,这个OS中就已经包含了我们的Agent,OS启动后就可以下发指令来采集服务器的硬件信息做资产核对,如CPU、内存、磁盘的厂商及大小信息等。?OS安装:交付业务前会先安装OS,安装什么样的OS也是向这个内存中的Agent下发命令实现的。?环境配置:OS安装完成后像机器上的账号、通用运维脚本、定时任务等基础环境的初始化。?应用发布:应用配置与软件包的上线发布。?运行监控:上线后应用与业务的监控脚本、监控Agent的安装。?日常运维:登录服务器、单机、批量等日常运维操作,包括业务下线前的清理工作等。
产品数据?
这也是我们产品在阿里内部的一些数据,每天有上亿次的服务器操作,1分钟可以操作50万台服务器,插件有150多个,管理服务器规模在百万级,Agent资源占有率也特别低,支持Linux/Windows主流发行版。
产品功能?StarAgent核心功能可以总结为两大块:管控通道和系统配置。这与开源的saltstack/puppet/ansible等配置管理产品类似,我们做的更精细一些。
管控通道:所有运维操作最终都会转化为命令到服务器上去执行,这个命令通道是全网唯一的,这里会有相应的用户权限控制、操作审计、高危命令拦截等能力。?系统配置:公共运维脚本、定时任务、系统账号、监控Agent等等,这些配置会在Agent启动后自动初始化,OS中默认打包有Agent,所以可以做到开机后全自动完成服务器运维基础环境的初始化。?
按照Portal、API、Agent细分后的功能列表,Portal主要给一线开发与运维同学使用, API更多是给到上层运维系统来调用,Agent代表每台机器上直接可以使用的能力。
Portal
您可能关注的文档
- 托班心理教案(精选篇).doc
- 会计基础第一章(Chapter of accounting basis).doc
- 西安财经学院本科毕业论文(设计)撰写规范.doc
- 日本财产保险(中国)有限公司建筑工程一切险条款重点.doc
- 液化石油气说明书标准版2017年8月通过省安监局审核及国家审核.doc
- 课例 - 张羽 - 第七届“外教社杯”全国高校外语教学大赛综合课组 一等奖.doc
- 2017年-年产2万台高性能水稻插秧机项目可行性研究报告-76.doc
- 同策—上海杨浦区和平花苑创业者公寓定位策划页.doc
- 花费一学期悟出的英语级必杀技听力.doc
- 四川省成都市金堂县又新镇永乐撑年级数学下册1.1锐角三角函数导学案无答案新版北师大版20170711298.doc
- 人教版八年级上册历史精品教学课件 第六单元 中华民族的抗日战争 第17课 七七事变与全民族抗战 (6).ppt
- 人教版八年级上册历史精品教学课件 期末专题复习 专题二 中国人民近代化的探索 (2).ppt
- 人教版八年级上册历史精品教学课件 第二单元 近代化的早期探索与民族危机的加剧 第5课 甲午中日战争与列强瓜分中国狂潮 (2).ppt
- 人教版八年级上册历史精品教学课件 第七单元 人民解放战争 大概念引领下的大单元复习 (4).ppt
- 人教版八年级上册历史精品教学课件 第七单元 人民解放战争 第21课 人民解放战争的胜利 (2).ppt
- 人教版八年级上册历史精品教学课件 第三单元 资产阶级民主革命与中华民国的建立 第10课 中华民国的创建 (2).ppt
- 人教版八年级上册历史精品教学课件 第四单元 新民主主义革命的开始 第12课 新文化运动 (3).ppt
- 第四组塑料低温脆化温度测试详解演示文稿.ppt
- 第消费者行为演示文稿.ppt
- 第一部分用搜索方法求解问题演示文稿.ppt
原创力文档

文档评论(0)