- 1、本文档共85页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多机多卡的卷积神经网络性能优化-计算机系统结构专业论文
优秀毕业论文
精品参考文献资料
摘要摘要
摘要
摘要
随着深度学习在各个领域的普及,神经网络参数的规模越来越大,训练的 周期也越来越长,多GPU加速成了必然的硬件解决方案。为了最大化多GPU 的硬件利用率,本文研究和实现了深度学习的GPU优化策略,包括单机单卡和 多机多卡方案。
本文在单机单卡方面的主要工作与贡献包括g 单机单卡方面,本文详细地介绍了神经网络常用结构以及加速细节,维护
了名为“CUDA.CNN”的开源项目。该项目己经支持包括卷积层,池化层, Softmax层,分支层,合并层,NIN层,Inception层以及多种数据扩展方法等。 此外,该项目在MNIST数据集上取得公开结果中最高的准确率99.81%。
本文在多机多卡方面的主要工作与贡献包括: 首先,主要研究如何提高系统的负载均衡能力以及减少并行开销。通过实
验证明,在单位时间内,每个GPU分别迭代fetchf次后,再将残差和汇总到参 数服务器,这种方法除了减少通信频率之外,又能够根据GPU的计算能力分配 不同的规模的任务,提高了系统的负载均衡能力。此外,本文引入了热启动技 术,通过动态的修改参数同步频率,有效地提高了训练前期的收敛速度。
其次,详细设计了多机卡的任务调度器。首先,为了避免人为分析程序并 行性所带来的遗漏或者错误风险,本文沿用Purine中的二分图技术。由于二分 图中包含了所有操作之间的数据依赖关系信息,调度器可以自动分析任务的并 行性,最大化异步操作;其次,为了减少并行开销,本文在调度器中引入线程 池和任务队列,将使用同类型硬件的计算任务放在同一个线程池或者任务队列 中,有效地减少了线程的创建和销毁频率,减少由资源竞争引起的并行开销。 最后,通过引入CUDA的事件机制来支持调度器的同步操作。
最后,实验表明,在单机多卡环境中,Npruine性能比Purine提高了23.7%, 与此同时,两个计算能力不相同的GPU利用率都达到96%左右。此外,Purine 在使用四个节点的集群上,性能不但没有增加,反而仅是单个节点性能表现的 47%。经过优化和改进,新架构Npurine能够在廉价网络连接的集群上运行,其
性能是Purine的12.34倍。
关键词:Purine,多机多卡,深度学习,负载均衡
摘要
II
ABSTRACTWith
ABSTRACT
With the popularity of deep learning and the growing of neural network parameters,the training time of deep neural netwoks is becoming longer.Multi—GPU is the inevitable hardware solution.In order to maximize the utilization of
multi-GPU hardware,this thesis researches and realizes the acceleration of deep neural networks by using GPU,by using single·machine and single-GPU or using multi.machine and mutil.GP[,.
The main work and contributions of single-machine and single.GPU are as
following:
In the single—machine and single—GPU framework,this article describes the structure of the neural network and the acceleration details by using CUDA.We maintain an open‘source project called”CUDA—CNN”.The project now supports for convolution layer,pool layer,Soflmax layer,branch layer,combine layer,NIN layer,
Inception layer and a variety of data augmentation method and SO on.Funhennore.
the project has got the highest accuracy rate of 99.8 1%on MNIST data set.
The main work and contributions of multi.machine a
您可能关注的文档
- 基于复合空穴传输材料的介孔钙钛矿太阳电池的研究-动力工程专业论文.docx
- 基于复杂应力路径饱和砂土动力试验的本构模型研究-岩土工程专业论文.docx
- 基于复小波的共振解调在滚动轴承故障诊断中的应用研究-机械电子工程专业论文.docx
- 基于复杂建筑结构和行走环境变化的行人流动力学建模及复杂性研究-系统理论专业论文.docx
- 基于复杂网络的可视化方法研究及其应用-计算机软件与理论专业论文.docx
- 基于复杂传染机制的在线社会网络信息传播模型研究-系统工程专业论文.docx
- 基于复杂网络的个体交互与合作行为研究-理论物理专业论文.docx
- 基于复杂适应系统理论的区域水土资源优化配置与粮食安全风险分析-农业工程;农业水土工程专业论文.docx
- 基于复杂网络理论的复杂调度问题求解方法研究-控制科学与工程专业论文.docx
- 基于多传感器的人手位姿检测系统-检测技术与自动化装置专业论文.docx
- 小平方房屋买卖合同(28篇).docx
- 渭华起义馆观后感作文500字五篇.docx
- 自然语言处理NLPTextRNN实现情感分类.docx
- 清明节继承先烈遗志演讲稿700字(24篇).docx
- 语文五年级上册第18课慈母情深部编版.docx
- Unit5Thevalueofmoneywords1单词课件高中人教版(2019)(1).pptx
- 中考英语话题复习之兴趣爱好省公开课金奖全国赛课一等奖微课获奖课件.pptx
- Unit1FestivalsandCelebrationsReadingandthinking课件-人教版高中英语.pptx
- 监狱防爆车采购合同协议.docx
- 电力服务代办合同协议.docx
文档评论(0)