基于深度学习训练平台的缓存联合部署策略研究.docx

下载文档 降价啦

6
0
约4.45千字
约 6页
2021-07-30 发布于广东
举报
版权申诉
保障服务

基于深度学习训练平台的缓存联合部署策略研究.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于深度学习训练平台的缓存联合部署策略研究摘要：阐述各类Internet服务与智能手机应用程序,每分钟都会产生大量数据,这大大刺激了包括深度学习在内的数据收集、存储、分析需求。但是,探讨如何优化深度学习训练平台的I/O表现,目前的研究成果还比较少。从“类脑智能开放平台”真实数据出发,分析了深度学习训练平台I/O特性,并基于以上,兼顾缓存命中率与节点负载均衡,提出了缓存联合部署策略。仿真结果表明,相比于常用的LRU策略,提出的策略具有更高的缓存命中率,且各计算节点之间的负载较为均衡,从而较好地优化了深度学习应用的I/O表现。 0 引言目前，许多领域的数据量都在以惊人的速度增长。根据文献大多数深度学习应用本质上都是I/O密集型的，HPC集群出色的计算性能对支撑其运行的存储系统提出了前所未有的要求，而HDFS、Lustre在内的大多分布式文件系统的默认设计均无法有效满足其I/O需求在本文中，我们从深度学习应用特性出发，分析了深度学习中梯度下降的过程和训练集特征，归纳了深度学习训练平台的I/O特性，并基于该特性，兼顾缓存命中率与节点负载均衡，提出了缓存联合部署策略。具体工作如下。(1）我们基于“类脑智能开放平台”真实数据，分析了深度学习应用特性。(2）我们提出了一种针对深度学习训练平台的缓存联合部署策略。(3）我们将本文策略与LRU进行比较，针对训练节点的命中率与负载进行了仿真分析。1 研究背景对数据进行缓存的想法可以追溯到Belady替换驱动的缓存是指监视有限数量的缓存以维护缓存中最新和请求最多的内容，并且仅在缓存已满且发生缓存未命中时才从缓存中逐出内容。替换驱动的缓存算法计时器驱动的缓存算法（如TTL缓存）在计时器到期时从缓存中逐出特定时间存储的内容将内容缓存到路径中的所有节点，可以减少潜在的流量成本。但对内容的盲目复制，可能会加剧存储成本。为了提高路径复制的性能，存在基于内容准入控制的缓存算法从已有的研究来看，传统的缓存策略无法在深度学习场景下较好地发挥其性能。因此，本文从深度学习应用入手，分析其应用特性，并针对其特性提出了缓存联合部署策略。2 深度学习应用的特性2.1 深度学习训练任务I/O特性深度学习的训练，本质上就是梯度下降算法。常见的参数更新方式如表1所示。如图1所示，小批梯度下降算法（mini-batch gradient decent）整合了批梯度下降与随机梯度下降算法的优势，逐渐成为深度学习训练任务（Deep Learning Training,DLT）中主要的参数更新方式。使用小批梯度下降算法时，为了能够以随机方式访问训练集，DLT会使用索引序列来遍历数据。DLT会维护一个包含所有文件索引的列表，并对它进行随机排列，随后根据mini-batch的数据量向后端存储获得数据，当全部的数据都完整遍历训练一次，一个epoch完成。对于下一个epoch,再次对索引进行随机排列，重复上面的过程。一个典型的DLT任务会运行很多轮训练，通常为50～200个epoch。因此，DLT任务I/O访问的主要特点(1）重叠I/O：在DLT训练任务中，存在很大程度的I/O重叠性。在一个任务内，它会针对同一个数据集进行多次的遍历（例如多个epoch）。(2）随机访问：DLT训练任务各轮epoch以随机的顺序访问数据集。(3）多任务：因为DLT任务是一个试错的过程，所以实际运行过程中，用户总是会使用不同的参数来同时运行不同的任务，这些任务可能运行在相同或不同的机器上，所有的这些任务都会访问相同的完整数据集。2.2 深度学习数据集特性通常，受限于单节点GPU数量，使用多计算节点分布式部署的方式来确保深度学习训练平台的服务能力，可以分为数据仓库、模型仓库、配置中心、训练集群四个部分，如图2所示。“类脑智能开放平台”是由类脑智能技术及应用国家工程实验室与中科类脑公司联合建设的高性能计算集群。我们对平台上存储的400TB深度学习训练集及用户访问记录进行抽样，结果如下。(1）训练集大小分布特点。我们随机选取了部分公共训练集，并针对各训练集以固定比例随机抽取部分文件作为本次统计的样本集。信息如表2所示。样本集大小分布如图3所示。可以看出，1～4MB大小的文件占总文件大小的60%,4～64KB大小的文件占总文件数量的80%。可以推测，训练集文件平均数量极多，大部分为小文件。(2）训练集访问特点。我们截取了北京时间2020年11月28日2:00～2021年1月7日14:00，总计40天，1万条深度学习训练集访问日志，并对时间和空间两个维度进行分析，结果如图4所示。明显地，访问记录出现了不同程度的聚集现象。(1)时间聚集：较短时间内，不同训练集集中受到大量