Alluxio助力Kubernetes加速云端深度学习.pptxVIP

Alluxio助力Kubernetes加速云端深度学习.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Alluxio助力Kubernetes加速云端深度学习技术创新,变革未来

目录我们是谁问题背景Alluxio助力云原生AI模型训练Alluxio是谁Allluxio与Kubernetes结合Alluxio优化实践相关资料

背景硬件软件数据容器化的基础架构人工智能发展的驱动力

模拟数据训练速度311.67323.849993.633884.805000P100(1GPU)P100(32GPU)V100(8GPU)V100(32GPU)RestNet50模型训练速度(images/second)10000 15000 20000 25000 30000 35000 40000分布式训练/GPU硬件升级加速明显

模拟数据训练时间10815.124.623.3910100120P100(1GPU)P100(8GPU)P100(32GPU)V100(8GPU)V100(32GPU)RestNet50模型训练时间(hours)20 40 60 80V1008卡:157.9元/小时x4=631.6元P1001卡:12.78元/小时x108=1380.24元

数据访问的新挑战ESSD云盘PL2(images/31secon89.6d)9993.60 2000 4000 6000 80001000012000Synthetic强大的算力需要匹配的I/O吞吐计算存储分离导致I/O延迟单机缓存无法满足海量数据加速RestNet50模型训练速度云盘

Alluxio-分布式缓存的领导者开源项目由李浩源博士(Alluxio公司CEO)在加州大学Berkeley分校AMPLab就读期间创硅谷著名投资公司AndreessenHorowitz投资,公司在2015年在旧金山湾区成立,致力于推动开源项目和社区以及商业化面向大数据和AI应用的内存级数据编排系统

JavaFileAPIHDFSInterfaceS3Interface POSIXInterface RESTAPI数据编排层(DataOrchestration)Alluxio是什么HDFSDriverS3DriverOSSDriverWebDriverAlibabaCloudOSS

Alluxio服务器Alluxio服务器大数据查询大数据ETL模型训练Alluxio核心功能一:分布式数据缓存Alluxio服务器AB/path1/file1/path2/file2CABCA

Alluxio服务器Alluxio服务器大数据ETL 大数据查询模型训练Alluxio核心功能二:灵活多样的数据访问APIAlluxio服务器HDFS接口客户端POSIX接口客户端

Alluxio服务器Alluxio服务器大数据查询大数据ETL模型训练Alluxio核心功能三:统一的文件系统抽象Alluxio服务器

Alluxio在云端AI训练场景的性能好处支持大规模的数据缓存本地内存加速支持数据预热LRU缓存管理Worker(local)Worker(remote)MasterTrainingPODTier0:1-2GB/SShortCircuit:1-6GB/SObjectstorage(Fuse)Network:300M/S

Alluxio在Kubernetes上的架构K8SnodePodPodK8SnodeK8SnodeAlluxioWorkerPodRAM/SSD/HDDK8SnodeK8SnodePodRAM/SSD/HDDK8SnodePodRAM/SSD/HDDTensorFlowTensorFlowPodPodMXNetMXNetPodPodCaffeCaffeoss阿里云对象存储statefulsetdaemonset

一键式部署Alluxio,中心化配置集群参数$catEOFconfig.yamlfs.oss.accessKeyId:xxxfs.oss.accessKeySecret:yyyalluxio.master.mount.table.root.ufs:oss://imagenet-huabei5/EOF$helminstall-fconfig.yamlalluxio-repo/alluxio--version2.3.0-SNAPSHOT

Alluxio支持AI模型训练场景的挑战1252.52518.84981.6 9993.6 2221.923761.642875.2020004000600080001000012000ResNet50,V100(Image/Second) 1165

文档评论(0)

BraveBoy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档