超算、存储一体化深度学习训练服务器工作站硬件配置的方案.pdfVIP

下载本文档

74
0
约1.21万字
约 9页
2018-08-28 发布于安徽
举报
版权申诉

超算、存储一体化深度学习训练服务器工作站硬件配置的方案.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

超算+存储一体化的深度学习训练服务器/工作站硬件配置方案目录 1 深度学习训练平台与理想计算架构 2 深度神经网络计算特点与硬件配置分析 3 UltraLAB 图灵工作站与配置推荐（一）深度学习训练平台现状与完美计算架构深度神经网络（DNN）计算数据模型繁多，结构复杂，主流模型含几十个隐含层，每层都在上千上万级的神经元，整个网络更多，其计算量巨大，市场上用于深度学习的训练计算机大致情况，（1）服务器/工作站（支持2、4、8 块GPU 架构）：普遍存在噪音大，无法放置于办公环境，必须放到专门的机房，维护成本高，另外数据存储带宽、延迟、容量也不尽如意（2）分布式集群架构：性能强大，但是开发成本太高，是大多数科研单位无法承受那么问题来了，市场上是否有一个理想产品，弥补上述缺陷，让更多单位都能用的起~ 人工智能AI 超级异构计算机 UltraLAB GXM 图灵计算工作站是西安坤隆计算机公司2017 年上半年推出的、目前市场上一款集GPU 超算、海量存储于一体、基于办公静音环境、应用于深度学习(机器学习、人工智能)的AI 超级计算机系统。和市面上深度学习计算机系统相比，显著优势：  完全处于办公环境（静音级）、不在被噪音所困扰  配备基于PCIe 总线的海量高速并行存储（最大容量180TB），延迟低，支持最大15 个并行读，硬盘io 性能大幅提升，性能和管理远超传统的DAS/NAS 存储系统  配备超级强大的计算能力，最大10个GPU 卡，3.82万计算核，单精度浮点120Tflops  不需要专门的机房，不占过多空间，维护成本极低  不需要作业调度系统，管理难度大幅降低（二）深度神经网络计算特点与硬件配置分析市场上大部分GPU 计算机(服务器/工作站），重点都放在GPU 卡数量上，似乎只要配上足够 GPU 卡，就可以了，实际情况是，机器硬件配置还需要整体均衡，只有这样这台机器性能才能更好的发挥上述图示，深度神经网络计算大致流程，下面通过深度神经网络计算环节，分析核心硬件配置理想要求 1. 数据存储要求做深度学习首先需要一个好的存储系统，将历史资料保存起来主要任务：历史数据存储，如：文字、图像、声音、视频、数据库等。。。性能要求： a.数据容量：提供足够高的存储能力， b.读写带宽：多硬盘并行读写架构提高数据读写带宽 c.接口：高带宽，同时延迟低传统解决方式：专门的存储服务器，借助万兆端口访问缺点：带宽不高，对深度学习的数据读取过程时间长(延迟大，两台机器之间数据交换) ，成本高 UltraLAB 解决方案：将并行存储直接通过 PCIe 接口，提供最大 16 个硬盘的并行读取，数据量大并行读取要求高，无论是总线还是硬盘并行带宽，都得到加大提升，满足海量数据密集io 请求和计算需要 2. CPU 要求主要任务：（1）数据从存储系统调入到内存的解压计算（2）GPU 计算前的数据预处理（3）运行在代码中写入并读取变量执行指令，如函数调用启动在GPU 上函数调用，创建小批量数据启动到GPU 的数据传输（4）GPU 多卡并行计算前，每个核负责一块卡的所需要的数据并行切分处理和控制（5）求解后数据保存前的压缩计算上述每一类操作基本都是单核计算模式，如果要加速这些过程，唯有提升CPU 频率传统解决方式：CPU 规格很随意，核数和频率没有任何要求 UltraLAB 合理推荐： a.CPU 频率：越高越好 b.CPU 三级缓存：越大越好 c.CPU 核数：比GPU 卡数量大（原则：1 核对应1 卡，核数要有至少2 个冗余） 3. GPU 要求主要任务：承担深度学习的数据建模计算、运行复杂算法传统架构：提供1~8块GPU UltraLAB 合理推荐： a.数据带宽：PCIe8x 3.0 以上 b.数据容量：显存大小也很关键 c.计算匹配：CPU 核-GPU 卡 1对1 d.GPU 卡加速：多卡提升并行处理效率 4 内存要求主要任务：存放预处理的数据，待GPU 读取处理，中间结果存放 UltraLAB 合理推荐： a.数据带宽最大化：单Xeon E5v4 4 通道内存，双Xeon E5v4 8 通道内存，内存带宽最大化 b.内存容量合理化：