- 2
- 0
- 约1.66万字
- 约 13页
- 2023-06-02 发布于四川
- 举报
本发明公开面向深度学习模型分布式训练的容器自动编排方法,对于待训练的神经网络模型,获取其中算子;使用计算用时预测模型预测算子的计算用时,获得每一层的前向和反向传播用时开销;针对给定的硬件设备,并行运行通信带宽测试,采集设备的拓扑信息;根据计算用时预测模型得到的分析结果,结合硬件设备的拓扑信息,使用模拟退火的策略,进行模型划分,构建镜像,使用镜像创建容器,并基于Kubernetes,对容器进行编排;容器内部运行训练过程,容器之间进行通信,共同完成模型的训练。本发明在复杂神经网络模型的训练方面,提供
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 115794385 A
(43)申请公布日 2023.03.14
(21)申请号 202211426263.X
(22)申请日 2022.11.14
(71)申请人 南京大学
地址 210023 江苏
原创力文档

文档评论(0)