京东登月平台AI基础架构介绍.pdfVIP

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
京东登月平台 AI 基础架构介绍 1 从 2016 年 9 月开始, 京东 AI 基础平台部基于 Kubernetes 和 Docker 构建机器学习平台的底层架构, 后 续逐步完善和优化了网络、 GPU 管理、存储、日志、监控、权限管理等功能。目前集群管理的容器实例数量有 5K+ ,至今已上线运行了 20 多个 AI 前向服务( 50 多个 API ),同时为后向训练提供支持,在 618 大促中表现 高效稳定。 架构 登月平台的基础架构以 Docker+Kubernetes 为中心,底层基础设施包括 CPU 、 GPU 、 FPGA 计算资源, IB 、 OPA 高速互联网络以及多样化的文件系统,之上是机器学习框架和算法库,最上层是业务应用。管理中心包括 权限管理、任务管理、流程管理、监控中心、日志中心。 平台整体设计思想是 Kubernetes 调度一切,应具有以下特性(为了方便起见所有的 inference 类型的应用我 们称为 App ,所有 training 类型的应用我们称为 Job ): 高可用、负载均衡 。大量的 inference App 运行在容器中,需要保证 App 能够稳定高效的对外提供服务。 应用打包与隔离 。研究人员、开发人员将自己的代码打包成 image ,方便的进行 CI/CD ,透明的将自己的 App 运行于平台中。 2 自动扩容 / 缩容 ,training/inference 用同一批机器调度。 白天有许多活跃的用户, 平台应该扩展更多 inference App ,而到了晚上,应该将更多的资源分配给 training Job 。 作为大数据调度平台 。平台不仅可以原生的调度 Tensorflow/Caffe/XGBoost/MXNet 等机器学习、深度学习 工具包,也应该将 Hadoop/Spark 系列的大数据生态系统调度在 Kubernetes 中。 支持丰富的硬件资源类型 。根据不同的 App ,Job 类型,应该使用不同的硬件资源以提高加速比,平台不仅需 要支持 CPU 、GPU ,还应该支持 FPGA , InfiniBand ,OPA 等专用高速计算资源。 最大化利用整个集群资源 。显而易见,对于平台来说已经不再区分是 inference App 还是 training Job ,所有 的计算资源都统一在一个大的资源池中。 推行数据隔离架构,保证数据安全 。通过网络优势将数据和计算进行分离,提供更高级别的数据 access 权限。 多租户安全保证 。平台接入公有云,需要支持 multi-tenancy 的架构,不同的用户共享计算资源的池子,但是 彼此在网络级别、文件系统级别、 Linux 内核级别都相互隔离。 3 登月平台架构 网络 Kubernetes 自身 不具备 网络组件 ,需要使 用第三 方网络插 件实现 。前期我 们调研 了 Flannel 、Weave 、 Calico 三种容 器网络 ,并做了性 能对比 测试 。由 于 Flannel 、 Weave 都 是 overlay 网络,均采用 隧 道方式, 网络通 信包传 输过程中 都有封 包拆包 处理,因 此性能 大打折 扣;而 Calico 基 于 BGP 路 由 方式实现 ,没有 封包拆 包和 NAT ,性能 堪比物 理机网络 。 另外, Calico 是纯三层的数据中心解决方案,主机之间二层通

文档评论(0)

午夜看球 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档