这两天只要是讲到 GPU 的一定都会提到 NVIDIA 在自家的 GDC 上端出 Volta 架构的 Tesla V100 运算卡这件事。这张卡是目前 NVIDIA 以人工智能深度学习为出发点的新产品,但玩家更关心 Volta 跟 Pascal 两代架构到底差在哪里。如果一定要下个结论的话, Volta 确实比 Pascal 厉害得多,除了运算上的效能,在晶体管数量跟核心面积也有惊人的成长。更在人工智能运算上回头打脸不久前认为 GPU 没一个能打的 Google TPU 。
熟悉显卡生态,每年都在为了选哪张卡天人交战的有钱玩家们通常都会用分数来决定选哪一张卡。而在旗舰卡当中, NVIDIA 可说是极尽所能的垄断了整个高阶显卡市场。并不是对手 AMD 不够争气,而是 NVIDIA 对求胜的心更为热切,也最有实力维持领先局面:
先前的 Pascal 架构已经取得相当大的成功,为了迎战对手即将推出的新架构,NVIDIA 抢先一步推出自己的新架构 Volta ,Volta 除了在游戏表现上尽可能优于前一代架构外,也针对人工智能深度学习的部分有相当程度的强化。今天就来跟大家探讨 Volta 新架构有哪些细节能力压对手。
谈到 Volta 架构当然也得说说第一张采用这个架构的产品,基于运算需求的 Tesla V100。这张卡虽然跟一般消费者没什么关系,主要针对需要高效能运算环境的使用者。Tesla V100 的核心代号是 GV100 ,从曝光的消息中得知这个核心相当厉害。光面积就有 815 mm2,211亿个晶体管,5120 个 CUDA Core,15TFLOPS浮点效能。基本上现役显卡没有一个规格这么强大的,这也显示了 Volta 隐藏的实力,依照官方资料, Volta 在运算上可以匹敌 100 颗处理器:
如果 GV100 跟上一代架构的 GP100 进行比较,你会发现 GV100 确实用了不少猛料。串流式多处理器单元(SM unit)从 56 组增加到 80 组,CUDA Core 也从 3584 个增加快一倍的数目,来到 5120 个。 至于显示内存带宽与容量均无明显变化。依然使用 16GB HBM2 内存。然而时脉有些提升幅度,从 Pascal 的 720 GB/s 提升至 900 GB/s,相当接近搭配 4 块 HBM 2 内存的理论值 1024 GB/s 。
由于运算单元的增加,因此整个核心规模也进一步扩大,晶体管从 153 亿增加到 211 亿,核心面积从 610mm2 提升至现在的815 mm2 ,豪爽地刷新现代 GPU 核心面积的纪录。过去 NVIDIA 的核心主要都在 600mm2 附近,现在一口气推进到815 mm2,令人不禁觉得未来或许都会是大核心时代。另一方面也不免担心核心散热的问题是否能够顺利解决:
▲ Volta 架构示意图。
为了避免大家觉得看文章看到快睡着,笔者简单归纳一下。 Volta 与 Pascal 的规格差异其实主要在数量上。核心架构仍是一脉相承,只是 Volta 塞进更多料,外观也更壮(核心面积变大)。效能固然值得期待,但 TDP 好不好看仍是个谜。而 GV100 主要针对科学运算、人工智能、深度学习这些需求开发,会不会让游戏更厉害更顺畅,我们得继续看 Volta 之后推出的显卡群有没有令人眼睛一亮的表现,或是跟 AMD Vega 互有胜负。后面就来看看 Volta 核心有哪些改进之处。
Volta 是为了满足对运算效能有需求的客群,效率需求会优于精度,因此在 Volta 上看到运算单元的增加。也延用了在 GP100 中 FP32:FP64 = 2:1 的比例,在每个 SM 中具备 32 个 FP64(Double Precision Floating Point)。理论上将会有 2688 个 FP64 单元。但实际上却不会完整用到,启用的只有 2560 个。
为了因应运算效能需求做了这么多规格上的强化,还一口气把晶圆面积弄大,这样就能让 NVIDIA 拿出来现给大家看吗?不, NVIDIA 还在 Volta 架构加入了全新的 Tensor 张量运算单元,刚好这个名词令人想到不久前 Google 端出来嘲讽所有做 GPU 的大厂们,效能感觉强得嫑嫑的 TPU。
不过 Google 倒没说 TPU 的 T 是 Tensor 的 T ,所以 NVIDIA 算是理直气壮的拿来用了。
关于这个运算单元,大家可以想成整个架构中专门作为处理 AI 人工智能深度学习任务的东西。 GV100 内每组 SM 都配有 8 个 Tensor 单元,我们整理一下可以得到 FP32:FP64:Tensor = 64:32:8 这样的比例:
此外 Volta 支援第二代 NVLink 总线,GV100 核心有 6 组 NVLink 通道,双向运作,速度可达 300 GB/s。对比 GP100 核心上的 4 组 NVLink 通道,速度是 160 GB/s,对效能表现有相当好的影响。
不过 NVLkink 终究不是通用技术,主要用于 IBM 和 NVIDIA 开发的高阶运算平台,这次 GV100 核心就会用在双方合作的平台上,预计今年下半年正式启用:
▲分别采用第二代 NVLink 与 PCI-Express 界面的 Tesla V100 运算卡。
最后,该来看看效能了。目前 Volta 架构的代表产品 Tesla V100 运算卡与 Tesla P100 架构的效能差异,在相同以 8 张卡去进行深度运算的情况下, Tesla V100 比起上代产品快了三倍。
Tesla V100 仅需 6.5 小时完成任务,但 Tesla P100 需要 18 小时。
在 HPC 的使用情形也有不小的提升程度,官方给出的性能成长幅度是 50 %,若考虑到运算单元的增加,其实效能的增长主要也来自运算单元的增加。跟 Tesla P100 靠提高时脉加快速度的本质不同:
▲采用 PCI-Express 界面的 Tesla P100 运算卡。
这么成功的产品,自然也引起投资人的注意,NVIDIA 的股价在发表会后快速攀升,而 GTC 大会的与会者也比过去增加。开发者数量甚至成长了 11 倍,这些资讯显示 NVIDIA 正以惊人的气势夺下人工智能领域的运算需求。也对 Google 的 TPU 还以颜色,以行动证明 GPU 的无限可能。
至于我们什么时候才能看见 Volta 的游戏显卡呢?就 Volta 的设计走向来看,运算单元虽然增加了,但时脉的提升恐怕相当有限。这意味着下一代跟下下代的 GTX Titan 会着重在 CUDA Core 的数量跟运作效率,时脉可能慢慢的不会是旗舰显卡的重点,但 NVIDIA 还是会透过时脉跟规格来分野出各个阶层的产品。
目前消费级显卡并没有透漏发表时间,因此循惯例推敲,会是明年第一季附近开始有消息跟测试成绩。或是看 AMD Vega 努力到什么程度,迫使 NVIDIA 提前打出王牌。大家可以凭预算跟需求买卡,不用考虑等下一代架构出来。如果遇到有不错的价格,直接下手即可。现阶段 Pascal 在中高阶还是有很好的效能跟功耗表现,稍嫌困扰的只有价格。
好的产品能吸引其他企业的青睐, NVIDIA 目前与 TOYOTA 针对自动驾驶的部分合作,采用 NVIDIA 针对人工智能与汽车自动驾驶开发的 DRIVE PX。另外 NVIDIA 也推出由 8 块 Tesla V100组成的 NVIDIA DGX-1,其效能宣称能够替代 400 服务器。
在人工运算领域,NVIDIA 取得领先,也让 Volta 不光只是 GPU,更是兼具人工运算实力的复合式处理器,未来相信在业界的竞争下出现更多更适合人工智能运算的产品,推动人工智能研究到达新境界: