NVIDIA在美国发布了 Quadro 系列和 DGX 系列的两款新品.docVIP

  • 1
  • 0
  • 约2.7千字
  • 约 9页
  • 2018-11-11 发布于江苏
  • 举报

NVIDIA在美国发布了 Quadro 系列和 DGX 系列的两款新品.doc

NVIDIA在美国发布了 Quadro 系列和 DGX 系列的两款新品

NVIDIA在美国发布了 Quadro 系列和 DGX 系列的两款新品   3 月 28 日(北京时间),NVIDIA 在美国圣何塞召开了 GTC 2018(GPU Technology Conference 2018)大会,并发布了 Quadro 系列和 DGX 系列的两款新品。      Quadro GV 100 是 NVIDIA 「专业图形显卡」系列的最新成员,公司 CEO 黄仁勋称其为「世界上体积最大的 GPU」。      Quadro GV 100 拥有 5120 颗 CUDA 流处理器,640 颗 Tensor 处理器,最高可提供 14.8TFLOPS 的单精度浮点性能, 7.4TFLOPS 双精度浮点性能;采用 32GB HBM2 显存,显存带宽为 870GB/s;能够提供 118T 的深度学习性能。      接口方面,Quadro GV 100 配备 4 个 Display 1.4 接口,可以对接最多 4 个 4096 x 2160 分辨率,120Hz 刷新率的显示器;或 4 个 5120 x 2880 分辨率, 60Hz 刷新率的显示器;或 2 个 7680 x 4320 分辨率,60Hz 刷新率的显示器。      DGX-2 是一台专门用于人工智能训练和/或推理任务的桌面计算机,是 NVIDIA 的第二代 DGX「小型超级计算机」,采用新的 NVSwitch 技术并联 16 块 32GB 显存的 Tesla V100 计算卡,以及两枚英特尔 Xeon Platinum 处理器 ,拥有 1.5TB 系统内存,与 30TB 的 NVMe SSD 作为存储空间,显存容量则为 512GB HBM2,可以提供最高 2petaFLOPS 的浮点性能。      这是它的内部结构:      你可以看到,在图中 1 和 2 的位置看起来是很多块芯片。其实他们是英伟达的 Tesla V100 Volta 架构 GPGPU,单枚算力达到双精度 7.8 TFLOPS(万亿次浮点计算)、单精度 15.7TFLOPS、深度学习 125TFLOPS。   而DGX-2 单机箱安装了 16 枚 V100,总体性能达到了惊人的 2PFLOPS——业界第一台超过千万亿次浮点计算能力的单机箱计算机——称它为超算或许并不浮夸。   但 DGX-2 的算力并非靠堆叠出来,如果它们之间不能实现高带宽的数据互通则无意义。   时间倒回两年前,英伟达有意在深度学习的设备市场上对英特尔发起直接挑战,推出了 Pascal 架构的 P100 GPGPU。在当时,主流服务器 PCIe 总线接口的带宽和时延,已经无法满足英伟达的需求。于是它们开发出了一个新的设备内互联标准,叫做 NVLink,使得带宽达到了 300 GB/s。一个 8 枚 GPGPU 的系统里,NVLink 大概长这样:      然而 NVLink 的标准拓扑结构在理论上最多支持 8 枚 显卡,仍不足以满足英伟达对于新系统内置更多显卡的需要。于是在 NVLink 的基础上,英伟达开发出了一个名专门在显卡之间管理 NVLink 任务的协处理器,命名为 NVSwitch。这个元件在 DGX-2 上,让 16 枚 GPGPU 中两两之间实现 NVLink 互通,总带宽超过了 14.4 TB。   这一数字创造了桌面级电脑内总线接口带宽的新高,但实现它的目的并非跑分,而在于 DGX-2 可以 1)更快速地训练一个高复杂度的神经网络,或 2)同时训练大量不同结构的神经网络。   N 卡之所以被称为核弹有一种另类的解释方式:它的多核心架构在这个依核心数量论高下的时代显得超凡脱俗——动辄几百、上千个 CUDA 核心,令人不明觉厉。而在 DGX-2 上,16 枚 V100 的 CUDA 核数达到了疯狂的 81,920 核心。这一事实,结合 NVSwitch 技术、512GB 现存、30TB NVMe 固态硬盘、两枚至强 Platimum CPU 和高达 1.5TB 的主机内存——   黄仁勋用 GPU 深度学习里程碑式的杰作 AlexNet 来举例。研究者 Alex Krizhevsk 用了 6 天,在英伟达 GPU 上训练 AlexNet,这个研究首次利用梯度下降法和卷积神经网络进行计算机图像识别,显著优于此前的手调参数法,拿下了 ImageNet 图像识别竞赛冠军。AlexNet 让 Alex 世界闻名,这 6 天可以说值了。   然而,“同样的 8 层卷积神经网络,我用 DGX-2 跑了一下,只用 18 分钟就达到了同样的结果,”黄仁勋说,”五年,500倍的进步。”   这说明了很多东西。其中有一条:在这五年里,英伟达的技术进步节奏已经无法用摩尔定律来描述了。   Nvidia DGX-2 可

文档评论(0)

1亿VIP精品文档

相关文档