大数据培训公司 深度解密京东登月平台基础架构_光环大数据培训精选.pdfVIP

大数据培训公司 深度解密京东登月平台基础架构_光环大数据培训精选.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据培训公司 深度解密京东登月平台基础架构_光环大数据培训精选

光环大数据--大数据培训知名品牌 大数据培训公司 深度解密京东登月平台基础架构_光环大数据培训 光环大数据大数据培训机构,近日,京东发布登月机器学习平台,并在京东 云上线,正式对外提供人工智能服务。登月机器学习平台的上线代表着京东人工 智能技术从应用级服务到基础算法的全面对外开放,实践着京东 RaaS (零售即 服务)的发展策略。今天我们邀请了AI 与大数据部的工程师为大家深度解密京 东登月平台基础架构。 从2016 年9 月开始,京东AI 基础平台部基于Kubernetes 和Docker 构建机 器学习平台的底层架构,后续逐步完善和优化了网络、GPU 管理、存储、日志、 监控、权限管理等功能。目前集群管理的容器实例数量有5K+,至今已上线运行 了20 多个AI 前向服务(50 多个API),同时为后向训练提供支持,在618 大促 中表现高效稳定。 架构 登月平台的基础架构以Docker+Kubernetes 为中心,底层基础设施包括CPU、 GPU、FPGA 计算资源,IB、OPA 高速互联网络以及多样化的文件系统,之上是机 器学习框架和算法库,最上层是业务应用。管理中心包括权限管理、任务管理、 流程管理、监控中心、日志中心。 平台整体设计思想是Kubernetes 调度一切,应具有以下特性(为了方便起 见所有的 inference 类型的应用我们称为App,所有training 类型的应用我们 称为Job): 高可用、负载均衡。大量的 inference App 运行在容器中,需要保证 App 能够稳定高效的对外提供服务。 应用打包与隔离。研究人员、开发人员将自己的代码打包成image,方 便的进行CI/CD,透明的将自己的App 运行于平台中。 自动扩容/缩容,training/inference 用同一批机器调度。白天有许多 光环大数据 光环大数据--大数据培训知名品牌 活跃的用户,平台应该扩展更多inference App,而到了晚上,应该将更多的资 源分配给training Job。 作为大数据调度平台。平台不仅可以原生的调度 Tensorflow/Caffe/XGBoost/MXNet 等机器学习、深度学习工具包,也应该将 Hadoop/Spark 系列的大数据生态系统调度在Kubernetes 中。 支持丰富的硬件资源类型。根据不同的App,Job 类型,应该使用不同 的硬件资源以提高加速比,平台不仅需要支持 CPU、GPU,还应该支持 FPGA, InfiniBand,OPA 等专用高速计算资源。 最大化利用整个集群资源。显而易见,对于平台来说已经不再区分是 inference App 还是training Job,所有的计算资源都统一在一个大的资源池中。 推行数据隔离架构,保证数据安全。通过网络优势将数据和计算进行分 离,提供更高级别的数据access 权限。 多租户安全保证。平台接入公有云,需要支持multi-tenancy 的架构, 不同的用户共享计算资源的池子,但是彼此在网络级别、文件系统级别、Linux 内核级别都相互隔离。 登月平台架构 光环大数据 光环大数据--大数据培训知名品牌 网络 Kubernetes 自身不具备网络组件,需要使用第三方网络插件实现。前期我 们调研了Flannel、Weave、Calico 三种容器网络,并做了性能对比测试。由于 Flannel、Weave 都是 overlay 网络,均采用隧道方式,网络通信包传输过程中 都有封包拆包处理,因此性能大打折扣;而Calico 基于BGP 路由方式实现,没 有封包拆包和NAT,性能堪比物理机网络。 另外,Calico 是纯三层的数据中心解决方案,主机之间二层通信使用的是 物理机的MAC 地址,避免了AR

您可能关注的文档

文档评论(0)

tazhiq2 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档