大量客制与高效率 GPU 架构带来的强悍性能。
从 Tegra K1 开始,NVIDIA 将 PC GPU 产品架构下放到行动产品 SoC 上,展示出行动装置也能有强大 GPU 性能的可能性;但时过境迁,各家厂商也都端出在 GPU 性能上有所成长的新产品,如 APPLE A8x,使得 NVIDIA 也着手布局新世代的 SoC 产品。
在 2014 年发表了使用 ARM Cortex-A15 的 32 bit 四核 TK1,以及使用自制 Denver CPU 的 64 bit 双核 TK1 以后,在 GTC 路线图的规划上还有一颗代号为 Erista 的 SoC。自公布以来对于这颗 SoC 的资料一直还是停留在 Slide 上所提及的 Denver CPU、Maxwell GPU、以及 FinFET 制程这样的组合而已。
直到 NVIDIA 正式公开了 Erisa SoC 的真面目,发表名为 Tegra X1 的新 SoC。
当然正式规格就与当年 Slide 的规划有些不同,Tegra X1 在制程上使用了 TSMC 20nm 制程而不是 FinFET;使用的不是 Denver CPU 而是 Cortex A53、A57 的 big.Little 配置。看起来 X1 比较像是回应对手,可以快速进入市场的功能型产品。
要看到原先 Erista 的配置,可能要期待未来的 Parker SoC,以及 TSMC 制程给不给面子了。
CPU 部分,ARM Cortex-A57 是四核共享 2MB L2,L1 则是各自拥有 32KB DATA + 48KB 指令的配置;ARM Cortex-A53 部分则是 512KB shared L2 与 32 + 32 L1。由于 Denver CPU 已经在 64 bit TK1 有正式的实作,因此 Tegra X1 并没有使用算是有些出人意表,根据 NVIDIA 官方指出是配合上市时程而做的决定。
就算是使用了 ARM Cortex CPU,就如同小孩爱恶作剧般 NVIDIA 还是对此进行改造。这次 X1 在内连总线使用了自制的设计,而不是 ARM 的 CCI-400。big.Little 的部分也是舍弃了会将所有核心显示出来的全域工作排程(global task scheduling),而是改用了 cluster migration 丛集转移,另外加入了 Cache coherence 快取一至性来改善功耗与性能的表现。
根据 NVIDIA 的数据表示,比起 Exynos 5433,Tegra X1 在同样功耗下可以达到 1.4 倍性能,或是同性能只需一半的电力表现,当然这也还要算上核心优化以及制成的影响;在功耗控制的部分,NVIDIA 也持续使用了自有的 System EDP management ,而不是 ARM 的 IPA。
整体而言是有相当程度自有化的设计。
GPU 部分则是按照计划的使用了 Maxwell GPU 架构。Maxwell 架构从设计的初始就有将行动装置考虑在内,并非先做 PC GPU 再另行 Port 的概念,因此从目前推出的桌面 GM204 GPU 看来,整合了深度的电源优化的确是有着高能源效率的特性,这样的特色在 Tegra X1 上也是同样能够拥有。
功能部分,Maxwell GPU 加入了相当多的新功能,使用了更效率的 SMM 单元、第三代的 Delta Color 压缩引擎对、Conservative Rasterization、以及 MFAA 等新功能也都全面进入 Tegra X1。内存总线宽度为 64 bit,带宽部分虽然最简单的方法就是直接扩张总线的宽度,但是这样子会增加 SoC 的成本以及内部复杂度与功耗,因此 NVIDIA 仍然使用了 64 bit 的 memory bus,另外加上内存压缩以及使用更快速的 LPDDR4 内存来补强不足。
在运算单元的部分,Maxwell 架构只提供了 FP32、FP64 两种,因此在 X1 上也是同样的设计,但是在 Android 环境内,FP16 指令仍然被大量地使用,甚至在 NVIDIA DRIVE PX 平台内也会使用 FP16 指令来进行影像辨识,来进行精度堪用而且够快的运算。相对于 ARM 或是 Imagination 对于 FP16 都有独立单元,还有优化 ALU 分解的做法,NVIDIA 选择了有点 hack 的设计称为 “double speed FP16”,大致上的做法是能够将两个相同操作的 FP16 包装成一单一个 2D Vec2 并丢到一个 FP32 单元执行。
从 GPU 的安排上,Tegra X1 是在单一 GPC 内放入两组 SMM 单元,总共来到 256 个 CUDA Cores,比起 Tegra K1 的一组 SMX 来说,总数 256 CUDA Cores 自然是比 K1 的 192 有着更强的性能,加上 Maxwell 架构的高效率 CUDA Core 会更拉开距离;另外 Tegra X1 有 16 个材质单元、16 个 ROP 等配置,也都比 TK1 的 8TU、4 ROPs 来的更强悍,性能上估计 FP16 可以达到 1TFLOPS、FP32 则是 512GFLOPS。
最后 CPU、GPU 以外的 uncore 部分,前面我们提到的使用 LPDDR4 让内存带宽由 LPDDR3 的 14.9GB/s 来到了 25.6GB/s,并且提升了 40% 左右的能源效率;视讯输出的部分也来到了 4KUHD@60Hz,也支援了 HDMI 2.0 与 HDCP 2.2。负责影像处理的 ISP 倒是没有太大的改变,不过在 JPEG 编码的性能上大幅提升,从 120MP/s 提升到了 600MP/s,影片编码能力也更新到了 4K60 H.265 与 VP9,原先就支援的 H.264 也向上支援到 2160p60 的程度。
Tegra X1 带来了相当大的成长,高度客制化的 CPU 以及高效率的 GPU 都是相当具有可看性,在 K1 上的一些缺失也都有足够的改进。到时 Tegra X1 的正式登场应该可以给高阶 SoC 的竞争更加火热。
- NVIDIA Tegra X1 Preview & Architecture Analysis
(本文由 VR-Zone 授权转载;首图来源:AnandTech)