欢迎光临GGAMen游戏资讯




Nvidia 的新 GPU 来了,FPGA 和 ASIC 要扔掉吗?

2024-12-25 215

美国时间 5 月 10 日,Nvidia CEO 黄仁勋在开发者大会 GTC2017 上发表 新一代 GPU 架构 Volta,首款核心为 GV100,采用台积电 12nm 制程,最大亮点是成倍提升了推理性能,意欲在目前称霸机器学习训练场景的基础上,在推理场景也成为最佳商用选择。

GV100 GPU

据了解,Volta 架构 GV100 GPU 采用台积电(TSMC)12nm FFN 制程,具有 5,120 个 CUDA 核心。相比上一代 16nm 制程的 Pascal 架构 GPU GP100,晶体管数目增加了 38%,达到了惊人的 211 亿个;核心面积也继续增加 33%,达到令人生畏的 815mm 2,约等于一个 Apple Watch 的面积,据黄仁勋称,这样的面积已经达到了制程极限。随着核心的增大,GV100 的单、双精度浮点性能也大幅提升了 41%。然而这还不是重点,为了满足 GPU 在机器学习中的性能需求,Volta 架构中引入了新的张量运算指令 Tensor Core,让机器学习中训练速度提升约 3 倍、推理性能提升约 10 倍(相比上一代自家 GPU GP100)。

GV100 搭载在 TESLA V100 开发板上亮相,配合来自三星的 16GB HBM2 显存,显存带宽也达到了 900GB/s 之高。

根据现场演讲 PPT,推理场景下,V100 比上一代搭载 GP100 CPU 的 P100 板卡,图像处理能力提升了约 10 倍,延迟也下降了约 30%。在这样的性能提升之下,GPU 已经可以让 FPGA 和 ASIC 几乎没有用武之地,在商用场景中几乎满足全部计算需求。

DGX-1V、DGX Station

随着 GV100 GPU 发表,Nvidia 的深度学习超级电脑也进行了升级。旧款 DGX-1 把原有 Pascal GPU 升级为 Volta GPU,名字也更新为 DGX-1V。它内建 8 块 Tesla V100 开发板,合计显存 128G、运算能力为 960 Tensor TFLOPS,即将迈入下一个时代。黄仁勋表示,过去 Titan X 需花费 8 天训练的神经网络,用 DGX-1V 只需 8 个小时。它相当于是“把 400 个服务器装进一个盒子里”。

DGX Station 则是缩小版的 DGX-1V,黄仁勋称其为“Personal DGX”,堪称是终极个人深度学习电脑,各方面指标均为 DGX-1V 的一半,但仍然已经非常强大。Nvidia 内部使用 DGX Station 已经很久,每个工程师要嘛有 DGX-1V,要嘛有 DGX Station,再要嘛两个都有。既然它确实能够满足工程师的需求,Nvidia 决定把这款产品推广到大众市场。

Nvidia 意图透过 GV100 完全称霸机器学习硬件市场

据了解,机器学习中需要用到高计算性能的场景有两种,一种是训练,透过反复计算来调整神经网络架构内的参数;另一种是推理,用已经确定的参数批量化解决预定任务。而在这两种场景中,共有 3 种硬件在进行竞争,GPU、FPGA 和 ASIC。

GPU(以前是 Graphics Processing Unit 图形计算单元,如今已经是 General Processing Unit 通用计算单元)具有高的计算能力、高级开发环境、不影响机器学习算法切换的优点,虽然同等计算能力下能耗最高,但仍然在算法开发和机器学习训练场景中占据绝对的市场地位。

FPGA(Field-Programmable Gate Array,现场可程式逻辑门阵列)是一种半成型的硬件,需要透过程式语言定义其中的单元配置和链接架构才能进行计算,相当于也具有很高的通用性,功耗也较低,但开发成本很高、不便于随时修改,训练场景下的性能不如 GPU。

ASIC(Application Specific Integrated Circuits,特殊应用积体电路)是根据确定的算法设计制造的专用电路,看起来就是一块普通的芯片。由于是专用电路,可以高效低能耗地完成设计任务,但是由于是专用设计的,所以只能执行本来设计的任务,在做出来以后想要改变算法是不可能的。Google 的 TPU(Tensor Processing Unit 张量处理单元)就是一种介于 ASIC 和 FPGA 之间的芯片,只有部分的可定制性,目的是对确定算法的高效执行。

所以目前的状况是,虽然 GPU 在算法开发和机器学习训练场景中占有绝对地位;但是由于 FPGA 和 ASIC 在任务和算法确定的情况下,在长期稳定大规模执行(推理)方面有很大优势,所以 GPU 跟 FPGA 和 ASIC 之间还算互有进退,尤其 GPU 相同性能下功耗很高,对大规模计算中心来说电费都是很高的负担。但随着 GV100 对推理计算能力的约 10 倍提升,商用场景下已经没有必要为了推理场景更换硬件了,同一套 GPU 可以在训练场景的计算能力和推理场景的计算能力,同时达到同功耗下最佳,还具有最好的拓展和修改能力,简直别无所求。

面对提升如此明显的 GPU,一众投身机器学习硬件的 FGPA 和 ASIC 厂商前景令人担忧。也许现在唯一能让他们松口气的就是 GV100 GPU 的量产出货时间要到 2017 年第三、四季。等 2018 年,希望大规模部署后的 GV100 能用成倍提升后的性能给我们带来新的惊喜。

(本文由 雷锋网 授权转载)

延伸阅读:

  • nVidia 新 GPU 架构 Volta 发表,为人工智能注入一针强心剂
  • 人工智能黄金期,幕后芯片战也将开打
2019-03-26 01:30:00

标签:   游戏头条 资讯头条 ggamen科技资讯 ggamen科技 ggamen科技资讯头条 科技资讯头条 ggamen游戏财经 新闻网 科技新闻网 科技新闻 ggamen ggamen游戏新闻网 科技新闻 科技新闻网 新闻网 科技资讯头条 ggamen科技资讯头条 ggamen科技 ggamen科技资讯 游戏头条 ggamen游戏新闻网 科技新闻 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技资讯头条 ggamen科技 ggamen科技资讯 资讯头条 游戏头条
0