- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
超算+存储一体化的深度学习训练服务器/工作站硬件配置方案
目录
1 深度学习训练平台与理想计算架构
2 深度神经网络计算特点与硬件配置分析
3 UltraLAB 图灵工作站与配置推荐
(一)深度学习训练平台现状与完美计算架构
深度神经网络(DNN)计算数据模型繁多,结构复杂,主流模型含几十个隐含层,每层
都在上千上万级的神经元,整个网络更多,其计算量巨大,
市场上用于深度学习的训练计算机大致情况,
(1) 服务器/工作站(支持2、4、8 块GPU 架构):普遍存在噪音大,无法放置于办
公环境,必须放到专门的机房,维护成本高,另外数据存储带宽、延迟、容量
也不尽如意
(2) 分布式集群架构:性能强大,但是开发成本太高,是大多数科研单位无法承受
那么问题来了,市场上是否有一个理想产品,弥补上述缺陷,让更多单位都能用的起~
人工智能AI 超级异构计算机
UltraLAB GXM 图灵计算工作站是西安坤隆计算机公司2017 年上半年推出的、目前市
场上一款集GPU 超算、海量存储于一体、基于办公静音环境、应用于深度学习(机器学习、
人工智能)的AI 超级计算机系统。
和市面上深度学习计算机系统相比,显著优势:
完全处于办公环境(静音级)、不在被噪音所困扰
配备基于PCIe 总线的海量高速并行存储(最大容量180TB),延迟低,支持最大15
个并行读,硬盘io 性能大幅提升,性能和管理远超传统的DAS/NAS 存储系统
配备超级强大的计算能力,最大10个GPU 卡,3.82万计算核,单精度浮点120Tflops
不需要专门的机房,不占过多空间,维护成本极低
不需要作业调度系统,管理难度大幅降低
(二)深度神经网络计算特点与硬件配置分析
市场上大部分GPU 计算机(服务器/工作站),重点都放在GPU 卡数量上,似乎只要配上足够
GPU 卡,就可以了,实际情况是,机器硬件配置还需要整体均衡,只有这样这台机器性能
才能更好的发挥
上述图示,深度神经网络计算大致流程,下面通过深度神经网络计算环节,分析核心硬件
配置理想要求
1. 数据存储要求
做深度学习首先需要一个好的存储系统,将历史资料保存起来
主要任务 :历史数据存储,如:文字、图像、声音、视频、数据库等。。。
性能要求:
a.数据容量:提供足够高的存储能力,
b.读写带宽:多硬盘并行读写架构提高数据读写带宽
c.接口:高带宽,同时延迟低
传统解决方式:专门的存储服务器,借助万兆端口访问
缺点:带宽不高,对深度学习的数据读取过程时间长(延迟大,两台机器之间数据交换) ,
成本高
UltraLAB 解决方案:将并行存储直接通过 PCIe 接口,提供最大 16 个硬盘的并行读取,
数据量大并行读取要求高,无论是总线还是硬盘并行带宽,都得到加大提升,满足海量
数据密集io 请求和计算需要
2. CPU 要求
主要任务:
(1)数据从存储系统调入到内存的解压计算
(2)GPU 计算前的数据预处理
(3)运行在代码中写入并读取变量执行指令,如函数调用启动在GPU 上函数调用,创建小
批量数据启动到GPU 的数据传输
(4)GPU 多卡并行计算前,每个核负责一块卡的所需要的数据并行切分处理和控制
(5)求解后数据保存前的压缩计算
上述每一类操作基本都是单核计算模式, 如果要加速这些过程,唯有提升CPU 频率
传统解决方式:CPU 规格很随意,核数和频率没有任何要求
UltraLAB 合理推荐:
a.CPU 频率:越高越好
b.CPU 三级缓存:越大越好
c.CPU 核数:比GPU 卡数量大(原则:1 核对应1 卡,核数要有至少2 个冗余)
3. GPU 要求
主要任务:承担深度学习的数据建模计算、运行复杂算法
传统架构:提供1~8块GPU
UltraLAB 合理推荐:
a.数据带宽:PCIe8x 3.0 以上
b.数据容量:显存大小也很关键
c.计算匹配:CPU 核-GPU 卡 1对1
d.GPU 卡加速:多卡提升并行处理效率
4 内存要求
主要任务:存放预处理的数据,待GPU 读取处理,中间结果存放
UltraLAB 合理推荐:
a.数据带宽最大化:单Xeon E5v4 4 通道内存,双Xeon E5v4 8 通道内存,内存带宽最大化
b.内存容量合理化:
您可能关注的文档
- 二级C语言程序的设计上机题库考点训练题.doc
- 5.铁铜的获取与应用.docx
- 实验五:双线性变换法的设计IIR 数字滤波器.doc
- 禾草沟煤矿综自系统的方案.doc
- 甜茶糖甙的技术手册.pdf
- 发电厂冲灰水处理回用工程施工组织的设计定稿_附件.doc
- 管中窥豹——从限购业务模型的设计论产品业务模型构建之道.pdf
- 建立时间(setup time)保持时间(hold time)以及时序一些问题集合.doc
- 茂捷M5832建瓯让昂宝OB2532教材.doc
- 竹南国中学校午餐公办民营政策之的研究营养教育之观点.pdf
- 2026年及未来5年蓝信流量统计日志系统项目市场数据调查、监测研究报告.docx
- 2026年及未来5年多功能烟气分析仪项目市场数据调查、监测研究报告.docx
- 2026年及未来5年热熔焊制45°弯头项目市场数据调查、监测研究报告.docx
- 2025年学历类自考中国文化概论-中国当代文学作品选参考题库含答案解析.docx
- 2026年及未来5年微控双温区锑扩散系统项目市场数据调查、监测研究报告.docx
- 2026年及未来5年变频电机转子项目市场数据调查、监测研究报告.docx
- 2026年及未来5年数显压力机项目市场数据调查、监测研究报告.docx
- 2026年及未来5年电话十台灯十时钟项目市场数据调查、监测研究报告.docx
- 2026年及未来5年移动空调控制板项目市场数据调查、监测研究报告.docx
- 2026年及未来5年大豆纤维服饰项目市场数据调查、监测研究报告.docx
原创力文档


文档评论(0)