- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据培训公司 深度解密京东登月平台基础架构_光环大数据培训精选
光环大数据--大数据培训知名品牌
大数据培训公司 深度解密京东登月平台基础架构_光环大数据培训
光环大数据大数据培训机构,近日,京东发布登月机器学习平台,并在京东
云上线,正式对外提供人工智能服务。登月机器学习平台的上线代表着京东人工
智能技术从应用级服务到基础算法的全面对外开放,实践着京东 RaaS (零售即
服务)的发展策略。今天我们邀请了AI 与大数据部的工程师为大家深度解密京
东登月平台基础架构。
从2016 年9 月开始,京东AI 基础平台部基于Kubernetes 和Docker 构建机
器学习平台的底层架构,后续逐步完善和优化了网络、GPU 管理、存储、日志、
监控、权限管理等功能。目前集群管理的容器实例数量有5K+,至今已上线运行
了20 多个AI 前向服务(50 多个API),同时为后向训练提供支持,在618 大促
中表现高效稳定。
架构
登月平台的基础架构以Docker+Kubernetes 为中心,底层基础设施包括CPU、
GPU、FPGA 计算资源,IB、OPA 高速互联网络以及多样化的文件系统,之上是机
器学习框架和算法库,最上层是业务应用。管理中心包括权限管理、任务管理、
流程管理、监控中心、日志中心。
平台整体设计思想是Kubernetes 调度一切,应具有以下特性(为了方便起
见所有的 inference 类型的应用我们称为App,所有training 类型的应用我们
称为Job):
高可用、负载均衡。大量的 inference App 运行在容器中,需要保证
App 能够稳定高效的对外提供服务。
应用打包与隔离。研究人员、开发人员将自己的代码打包成image,方
便的进行CI/CD,透明的将自己的App 运行于平台中。
自动扩容/缩容,training/inference 用同一批机器调度。白天有许多
光环大数据
光环大数据--大数据培训知名品牌
活跃的用户,平台应该扩展更多inference App,而到了晚上,应该将更多的资
源分配给training Job。
作为大数据调度平台。平台不仅可以原生的调度
Tensorflow/Caffe/XGBoost/MXNet 等机器学习、深度学习工具包,也应该将
Hadoop/Spark 系列的大数据生态系统调度在Kubernetes 中。
支持丰富的硬件资源类型。根据不同的App,Job 类型,应该使用不同
的硬件资源以提高加速比,平台不仅需要支持 CPU、GPU,还应该支持 FPGA,
InfiniBand,OPA 等专用高速计算资源。
最大化利用整个集群资源。显而易见,对于平台来说已经不再区分是
inference App 还是training Job,所有的计算资源都统一在一个大的资源池中。
推行数据隔离架构,保证数据安全。通过网络优势将数据和计算进行分
离,提供更高级别的数据access 权限。
多租户安全保证。平台接入公有云,需要支持multi-tenancy 的架构,
不同的用户共享计算资源的池子,但是彼此在网络级别、文件系统级别、Linux
内核级别都相互隔离。
登月平台架构
光环大数据
光环大数据--大数据培训知名品牌
网络
Kubernetes 自身不具备网络组件,需要使用第三方网络插件实现。前期我
们调研了Flannel、Weave、Calico 三种容器网络,并做了性能对比测试。由于
Flannel、Weave 都是 overlay 网络,均采用隧道方式,网络通信包传输过程中
都有封包拆包处理,因此性能大打折扣;而Calico 基于BGP 路由方式实现,没
有封包拆包和NAT,性能堪比物理机网络。
另外,Calico 是纯三层的数据中心解决方案,主机之间二层通信使用的是
物理机的MAC 地址,避免了AR
您可能关注的文档
- 多发性纳氏囊肿精选.ppt
- 多发性骨髓瘤骨病外科治疗中国专家共识精选.pdf
- 多因素 分析精选.pdf
- 多域之间资源共享访问(AGDLP策略)精选.pdf
- 多姿多彩的图形教案精选.doc
- 多基地集中管控解决方案精选.pdf
- 多媒体应用技术基础复习资料精选.doc
- 多媒体会议室音响解决方案精选.pdf
- 多媒体技术原理及应用精选.ppt
- 多媒体作品的界面设计精选.ppt
- 中国国家标准 GB/T 45897.1-2025医用气体压力调节器 第1部分:压力调节器和带有流量计的压力调节器.pdf
- 《GB/T 45897.1-2025医用气体压力调节器 第1部分:压力调节器和带有流量计的压力调节器》.pdf
- 中国国家标准 GB/T 45897.2-2025医用气体压力调节器 第2部分:汇流排压力调节器和管道压力调节器.pdf
- 《GB/T 45897.2-2025医用气体压力调节器 第2部分:汇流排压力调节器和管道压力调节器》.pdf
- GB/T 45897.2-2025医用气体压力调节器 第2部分:汇流排压力调节器和管道压力调节器.pdf
- 《GB/T 45305.2-2025声学 建筑构件隔声的实验室测量 第2部分:空气声隔声测量》.pdf
- 中国国家标准 GB/T 45305.2-2025声学 建筑构件隔声的实验室测量 第2部分:空气声隔声测量.pdf
- GB/T 45305.2-2025声学 建筑构件隔声的实验室测量 第2部分:空气声隔声测量.pdf
- 中国国家标准 GB/T 20833.2-2025旋转电机 绕组绝缘 第2部分:定子绕组绝缘在线局部放电测量.pdf
- GB/T 20833.2-2025旋转电机 绕组绝缘 第2部分:定子绕组绝缘在线局部放电测量.pdf
文档评论(0)