6 月 22 日是一年一度的高性能计算大会 ISC,6 月 23 日又逢超级电脑 TOP500 榜单更新时间。根据 TOP500 刚发表的超级电脑 TOP500 榜单,中国 226 台位列第一,美国 114 台名列第二,日本以 30 台位居第三。
▲ 2020 年 6 月更新的 TOP500 超级电脑系统排名。(Source:TOP500)
细看最新榜单,可发现 TOP10 的超级电脑有 8 台采用 NVIDIA GPU、InfiniBand 网络技术,或同时采用 2 种技术。TOP500 榜单的系统有 333 套(约 66%)采用 NVIDIA 技术。
▲ TOP500 超级电脑系统采用 NVIDIA GPU、Mellanox 网络技术,或同时采用 2 种技术数量。(Source:NVIDIA blog,下同)
3 年前的 2017 年 6 月,TOP500 榜单使用 NVIDIA 和 Mellanox(NVIDIA 以 69 亿美元收购)的系统为 203 套,不到 TOP500 超级电脑系统的一半。为什么在超级电脑领域 NVIDIA 进展如此迅猛?TOP100 超级电脑为何要选 NVIDIA?
高速数据互联技术普及
NVIDIA 愿意以高价收购 Mellanox 的重要原因是高速数据传输在大数据时代越来越重要,超级电脑系统尤其明显。自 2019 年 11 月以来,TOP500 榜单使用 HDR InfiniBand 的系统数量几乎增加 1 倍,共有 141 台超级电脑使用 InfiniBand,自 2019 年 6 月以来增长了 12%。
如今,TOP500 榜单将近 74% 的全新 InfiniBand 系统采用 NVIDIA Mellanox HDR 200G InfiniBand,这是智慧高速数据互联技术迅速普及的体现。另外,在 TOP500 超级电脑,有 305 套系统使用 NVIDIA Mellanox InfiniBand 和 Ethernet 网络(约 61%)。
▲ InfiniBand 为排名前 10 的超级电脑的 7 台提速。
ISC 期间,NVIDIA 又宣布推出 Mellanox UFM Cyber-AI 平台,新平台运用 AI 分析技术检测安全威胁和运行问题并预测网络故障,大幅减少 InfiniBand 数据中心的停机时间。
收购 Mellanox 和智慧高速数据互联迅速普及是让 NVIDIA 产品在 TOP500 榜单比例迅速提升的关键,但超级电脑系统性能更是关键。
超高性能系统像积木一样搭建
特别是,当下 AI 和分析已成为科学计算的新需求,全球各地的研究者都正使用深度学习和数据分析预测各种最具潜力的领域,进而开展实验。GTC2020 时 NVIDIA 就表示,位于美国阿贡国家实验室的研究者使用 24 台 NVIDIA DGX A100 系统组成的集群扫描数十亿种药物,寻找 COVID-19 的治疗方法。
NVIDIA 最新发表的安培(Ampere)架构 GPU A100 正是推动超级电脑系统选用 NVIDIA 产品的关键之一。在一台 6U 服务器整合 8 颗 A100 GPU 及 NVIDIA Mellanox HDR InfiniBand 网络技术的 NVIDIA DGX A100 AI 系统,单节点性能达创纪录的 5 petaflops。由 140 台 DGXA100 系统组成的新一代 DGX SuperPOD 的 AI 算力更是高达 700petaflop。
这对竞争已到百万兆级超级电脑而言,意义重大,且这系统有很好的扩展性。辉达表示,DGX SuperPOD 架构设计展示如何像搭积木使用高性能 NVIDIA Mellanox InfiniBand 交换机连接 20 台 DGX A100 系统。4 名操作人员仅需不到 1 小时,就能组装一套 20 台系统组成的 DGX A100 集群,创建出性能可达 2petaflops 的系统。
据悉,透过添加 NVIDIA Mellanox InfiniBand 交换机层,NVIDIA 工程师将 14 套分别配置 20 台 DGX A100 系统的模组相接,打造出 Selene。Selene 系统有:
- 280 台 DGX A100 系统。
- 2,240 颗 NVIDIA A100 GPU。
- 494 台 NVIDIA Mellanox Quantum 200G InfiniBand 交换机。
- 56 TB/s 的网络架构。
- 7PB 的高性能全闪存。
Selene 最重要的性能规格之一是提供超过 1exaflops 的 AI 性能,且在 TPCx-BB 关键数据分析基准测试,使用 16 台 DGX A100 系统就创造了新纪录,性能表现高其他系统 20 倍。
ISC 2020 期间,NVIDIA 还宣布推出 PCIe 版本的 A100,为的是补充 5 月发表的 4 卡和 8 卡 NVIDIA HGX A100 配置,这样,服务器制造商就能提供从内建单个 A100 GPU 的系统到内建 10 个以上 GPU 服务器,进一步满足超级电脑系统构建需求。
除了性能,TOP500 超级电脑系统也非常关注能耗,这也是 NVIDIA 吸引超级电脑系统制造商的另一大原因。
能效平均提升 2.8 倍
根据 NVIDIA 的说法,能效方面 TOP500 超级电脑使用 NVIDIA GPU 的系统与不使用的相比,能效(以 gigaflops/watt 为单位)平均高出 2.8 倍。最能证明这优势的是上述提到的 NVIDIA 内部研究集群新成员 Selene。
(Source:TOP500)
据悉,Selene 在 Linpack 基准测试以 27.5petaflops 的性能表现,在最新 Green500 榜单排名第二,TOP500 榜单排名第七。Selene 的功耗为 20.5gigaflops/watt,与 Green500 榜单的第一名相差不大,但排名第一的 MN-3 系统体积更小,性能表现排在第 394 位。
▲ NVIDIA GPU 平均提高 TOP500 超级电脑能效 2.8 倍。(Source:NVIDIA blog,下同)
值得一提的是,Selene 是 TOP100 系统唯一突破 20gigaflops/watt 能效表现大关的系统,也是全球性能排名第二的工业超级电脑,仅次于意大利能源巨头 Eni SpA 的 No.6 系统。
而 Selene 能效比 TOP500 系统的平均表现,比未使用 NVIDIA GPU 的超级电脑系统高 6.8 倍。这种性能和能效是归功于 A100 GPU 的第三代 Tensor Core 核心,最新一代 Tensor Core 可为传统的 64 位元数学模拟及精准度较低的 AI 工作提供加速。
小结
高性能计算处理器是一家公司产品性能领导力的体现,更是生态实力的体现。辉达在 ISC 2020 期间宣布,今年夏天预计有 30 款搭载 A100 的服务器上市,年底还会有 20 多款系统上市。包括华硕、Atos、思科、Dell Technologies、富士通、技嘉科技、HPE、浪潮、联想、One Stop Systems、Quanta / QCT 和 Supermicro。
黄仁勋在 GTC2020 强调,DGX A100 系统可实现高利用率和低总拥有成本。当以高售价广为人知的 NVIDIA 高性能 GPU 开始强调总体拥有成本和能效时,对市场的其他竞争者而言无疑是个坏消息,这也正是吸引更多超级电脑系统使用 NVIDIA 产品的关键因素。
并且,NVIDIA 也推出为安培架构和 A100 优化的软件支持,包括 CUDA 11、50 多个 CUDA-X 库的新版本;多模式对话式 AI 服务框架 NVIDIA Jarvis;深度推荐应用框架 NVIDIA Merlin;RAPIDS 开源数据科学软件库套件及 NVIDIA HPC SDK。
正在透过软硬件产品帮助开发者构建并加速 HPC、基因组学、5G、数据科学、机器人学等领域的应用的 NVIDIA,未来重点的提升方向会在哪?
(本文由 雷锋网 授权转载;首图来源:NVIDIA blog)
延伸阅读:
- 别再说 ARM 处理器不够力,富岳超级电脑拿下 500 大超级电脑第一名
- 支援开放式架构,NVIDIA 与 ARM 在超级电脑领域合作
- 中美竞逐超级电脑!传中国抢先,2020 年或重夺最快王座
- 美国-携手英特尔开发全球最快超级电脑,每秒预算百亿亿次
- 超级电脑排名洗牌,架构差异下其实各有擅长的运算领域