NVIDIA 不久前在今年举办的国际超级电脑会议(ISC)中,发表了以最新的 Volta 架构所制作的新运算卡 Volta V100 运算卡 ,这张卡将在人工智能运算上,以卓越的效率提供相当高规格的性能表现。这张运算卡基于 NVIDIA Volta 架构的 Tesla V100 GPU,令人期待它的表现:
不久前的 GTC 2017 大会上,我们知道 NVIDIA 推出了 Tesla V100 GPU 。这颗 GPU 虽然不像我们期待的那样作为游戏显卡,但在人工智能运算方面, Tesla V100 可是目前最强的处理器。
Tesla V100 采用 TSMC 12nm FFN(FinFET NVIDIA)制程,拥有 21 亿个晶体管,在 NVIDIA 历年来的 GPU 中称得上是相当惊人的成就。GTC 2017 当时所看到的是采用 SXM2 的外观,但这回 NVIDIA 改用大家比较熟悉的 PCI Express 界面:
PCI Express 版 NVIDIA Volta V100 具有与 SXM2 版本相同的 Tesla V100 GPU,他们的 GPU 尺寸都是 815mm2,这个 GPU 芯片也是目前为止最大的芯片。
Tesla V100 GPU 芯片本身使用了全新的架构,只是原始规格看起来就很狂。 GPU 由 6 个 GPC 组成,它总共有 84 Volta 串流多重处理单元,42个 TPC ,而每个 TPC 内包含两个 SM :
在总共 84 个 SM 中,每个 SM 都有 64 个 CUDA Core,所以在整个芯片上共有 5376 个 CUDA Core 。这些 CUDA 内核都可用于 FP32 和 INT32 程式指令,同时还有 2688 个 FP64(双精度)运算核心。
除此之外,还有 672 个 Tensor 处理单元,336 个纹理单元。 Boost 时脉可达 1370 MHz。
运算效能方面, FP16 可达 28 TFLOPs,FP32 可达 14 TFLOPs,FP64 则达到 7.0 TFs。
该芯片更提供 112 个 DLOP(Deep Learning Teraflops),这是目前最快的芯片,透过致力于深度学习任务的独立 Tensor 核心实现。
虽说 PCIe 版的时脉与运算效能略低于 SXM2 版,但 TDP 仅 250W,对比 SXM2 版的 300W 还是省了点电跟废热。也因此可以称得上是一件壮举:
▲Tesla 运算卡效能比较表(内容来源,大图请点此)
内存架构更新了 8 个 512 位元内存控制器,这样能达到 4096 位元的总线界面,能支援高达 16GB 的 HBM2 显示内存。
内存带宽在 boost 时拥有 878 MHz 的时脉。每个内存控制器都连结到 有 768KB 的 L2 快取。总共有 6MB 的 L2 快取供整个芯片使用。
另外, NVIDIA Volta V100 PCIe 版不会向 SXM2 版那样有 NVLINK 支援,它配备一个被动式散热的双槽散热器,散热器将有金色与黑色的配色方案。与竞争对手相比, NVIDIA 以相对较低的瓦数提供更好的运算效能,在效率上有很高的评价。
另外在双精度、单精度、半精度与 INT8 运算效能上,都比目前竞争对手未发表的运算卡高得多。 NVIDIA 公司目前已经将 Tesla V100 GPU 运送给合作伙伴与制造商,不久以后相信会看到更多采用这颗 GPU 的运算卡出现。