欢迎光临GGAMen游戏资讯




从先进封装技术发展,检视 AMD 的超级电脑布局

2025-01-13 279


“包水饺”不但是传统技艺,更将是尖端科技。

以《战略绪论》一书闻名的近代法国战略大师薄富尔曾说:“战略的要义是‘预防’而非‘治疗’,‘未来和准备’比‘现在和执行’更重要。”半导体业界亦同,当摩尔定律所预言的制程微缩曲线开始钝化,将不同制程性质的芯片,透过多芯片封装包在一起,以最短的时程推出符合市场需求的产品,就成为重要性持续水涨船高的技术显学。

而这些先进芯片封装也成为超级电脑和人工智能的必备武器。别的不提,光论 nVidia 和 AMD 的高效能运算专用 GPU、Google 第二代 TPU、无数“人工智能芯片”,就处处可见 HBM 内存的存在。

  • 在人工智能芯片战场追逐 GPU 背影的英特尔

毕竟天底下没有面面俱到的半导体制程,观察到先进制程晶圆厂每隔 4 年成本倍增的“摩尔第二定律”,也突显了晶体管单位成本越来越高的残酷现实。AMD 处理器从 7 奈米制程开始全面性“Chiplet 化”,将 7 奈米制程的 CPU 核心和 12 奈米制程的 I/O 内存控制器分而治之,实乃不得不然。

发展方兴未艾的先进封装技术

也因此,无论台积电还是英特尔,无不拚命加码,相关产品也如雨后春笋一个个冒出头来,而 AMD 更在未来产品计划,大剌剌写着“融合 2.5D 与 3D 的 X3D 封装”(虽然大概也是直接沿用台积电的现有技术),以达成超过时下产品十倍的内存带宽密度。

稍微替各位复习一下什么是“2.5D”封装,台积电拥有超过 60 个实际导入案例的 CoWos(Chip-on-Wafer-on-Substrate)算是这领域最为知名的技术,包含近期夺下超级电脑 Top500 榜首的 Fujitsu A64FX。英特尔用自家 EMIB(Embedded Multi-Die Interconnect Bridge)将 Kaby Lake 处理器与 AMD Vega 绘图核心“送作堆”的 Kaby Lake-G,也曾是轰动一时的热门话题。

  • 为了超级电脑而生的系统单芯片:从 IBM BlueGene_L 到 Fujitsu A64FX
  • 英特尔与 AMD 把各自擅长的 CPU、GPU 送作堆,背后脉络是什么?

有别于“2D”的 SiP(System-in-Package),2.5D 封装在 SiP 基板和芯片之间,插入了硅中介层(Silicon Interposer),透过硅穿孔(TSV,Through-Silicon Via)连接上下的金属层,克服 SiP 基板(像多层走线印刷电路板)难以实做高密度布线而限制芯片数量的困难。

“叠叠乐”的 3D 封装就不难理解了,台积电就靠着可减少 30% 的封装厚度 InFO(Integrated Fan-Out),在 iPhone 7 的 A10 处理器订单争夺战击败三星,终结了消费者购买 iPhone 6S 还得担心拿到三星版 A9 的尴尬处境(笔者不幸曾是受害者之一)。但 3D 封装的散热手段与热量管理,也是明摆在半导体产业界的艰钜挑战。

  • 台积电藉 InFO 晶圆级封装技术,独拿 A10 处理器产能订单

英特尔相对应的 3D 封装技术则为 Foveros。最近正式发表、代号 Lakefield 的“混合式 x86 架构处理器”,堆叠了“1 大 4 小核心”的 10 奈米制程(代号 P1274)运算芯片、22 奈米制程(代号 P1222)系统 I/O 芯片和 PoP(Package-on-Package)封装的内存,待机耗电量仅 2mW。

英特尔 2019 年 7 月公布的 Co-EMIB,用 2.5D 的 EMIB 连接多个 3D 的 Foveros 封装,“整合成具备更多功能”的单一芯片。为 EMIB 概念延伸的 ODI(Omni-Directional Interconnect)则用来填补 EMIB 与 Foveros 之间的鸿沟,为封装内众多裸晶连接提供更高灵活性,细节在此不论。

连接封装内多颗裸晶之间的总线也是不可或缺的技术。

英特尔在 2017 年将 EMIB 连接裸晶的“硅桥”(Silicon Bridge)正式命名为“先进界面总线”(AIB,Advanced Interface Bus)并公开免费授权,2018 年将 AIB 捐赠给美国国防先进研究计划署(DARPA),当作免专利费的裸晶互连标准,MDIO(Multi-Die I/O)则是 AIB 的下一代。台积电相对应技术则为 LIPINCON(Low-voltage-INPackage-INterCONnect),规格与英特尔互有长短。

  • 台积电与 ARM 展示业界首款 7 奈米 Arm 核心 CoWoS 小芯片系统

超级电脑用的系统单芯片并非 IBM 和 Fujitsu 的专利

长期关心 ARM 指令集相容处理器与超级电脑的读者,想必对先前采用 Fujitsu A64FX 处理器打造的日本理化学研究所的“富岳”并不陌生。这颗台积电 7 奈米制程并 CoWoS 2.5D 封装 4 颗 8GB HBM2 内存的产物,堪称当代最具代表性的“超级电脑专用系统单芯片”,让人不得不想起十几年前的 IBM BlueGene/L。

  • 为了超级电脑而生的系统单芯片:从 IBM BlueGene_L 到 Fujitsu A64FX

曾在 21 世纪初期靠着“地球模拟器”(Earth Simulator)独领风骚两年多的 NEC,其 SX 向量处理器的最新成员 SX-Aurora TSUBASA,也是台积电 16 奈米制程、2.5D 封装 6 颗 8GB HBM2 内存的超级电脑心脏。

而英特尔的 Xeon Phi 系列更是知名代表,透过 2.5D 封装包了 8 颗 2GB MCDRAM(Multi-Channel DRAM),可设定为快取内存、主内存或混合两者之用。虽然 Xeon Phi 家族两年前惨遭腰斩,中断自从 Larrabee 以来的“超级多核心 x86”路线,英特尔决定整个砍掉重练,一步一脚印重头打造“传统 GPU”当作未来高效能运算与人工智能应用的基础,但异质多芯片封装的重要性仍不减反增,最起码被英特尔从 AMD 挖角、主导 GPU 发展的 Raja Koduri,自己是这样讲的,也没什么怀疑的空间。

  • 【x86 兴衰史】奠定 Intel Xeon Phi 技术基础的“x86 处理器显卡”:Larrabee

不过 AMD 也并未缺席,并看似有后来居上的气势,而且这并非突发奇想,早在 2010 年之前,就开始进行长期研究,至今超过十年,并“很有可能”以 EHP(Exascale Heterogenous Processor)之名开花结果,融合 2.5D 与 3D 封装的 X3D 则是达成 EHP 的关键。

Exa 意指 Peta 的 1 千倍,也是近年来超级电脑的下一个竞争指标,像预定采用 AMD Zen 2 世代 EPYC 处理器的美国国家核能安全管理局 El Capitan 超级电脑,理论运算效能就超过 2ExaFlops。

AMD 自从 2007 年购并 ATI 之后,整合处理器与绘图核心的 APU 之路,一直走得相当挣扎,迟迟难以找到适合的产品规格与市场定位,不是 CPU 不够好、GPU 不够强、就是两者都不上不下,到了 Zen 2 世代才算脱胎换骨。

这些年来,AMD 在超级电脑市场逐渐边缘化,今年 6 月的 Top500 只剩下 10 台 AMD CPU 和一台 AMD GPU,更需要强力的新兵器,才能“突破英特尔和 nVidia 的封锁”。身为“超级电脑 APU”的 EHP 就成为 AMD 默默进行的新方向。

  • 从历史脉络理解 AMD 为何要双轨化 GPU 发展路线
  • 狼真的来了?AMD 的 CPU 真能登陆苹果 Mac 电脑?

以加拿大 ATI 身份在 2010 年申请“借由假硅穿孔替 3D 封装进行导热”(Dummy TSV To Improve Process Uniformity and Heat Dissipation)专利为起点,AMD 一路累积了“内存运算的快取资料一致性”(2016 年)、“3D 晶粒堆叠的热量管理”(2017 年)、“拥有极致带宽与可延展性能耗比的 GPU 架构”(2017 年)、“内存内运算的阵列”(2018 年)、“循环脱离预测(2018 年)以改善闲置模式的效率”到“混合 CPU 与 GPU 的动态内存管理”(2018 年)等成果,确定了 AMD 在 2015 年的财务分析师大会透露的“服务器专用 APU”与当年 7 月 IEEE Micro 发表的“借由异质运算实现百亿亿级运算”(Achieving Exascale Capabilities through Heterogeneous Computing)计划并不是玩假的,更何况现在 AMD 当家作主的还是一位以务实闻名的全球薪酬最高女性首席执行官。

根据已公开的资料,EHP 概略规格如下,但后面势必将随着技术演进而有更动:

  • 32 个 CPU 核心(当时是 8 颗 4 核心 CCD)。
  • 8 颗 32 个 GPU CU,总计 256 CU 与 16,384 个串流处理器(那时预定是 GCN 第五代的 Vega,看来将会推进到 CDNA)。
  • 8 块 4GB HBM2 内存堆叠。
  • 时脉 1GHz 时,双倍浮点精确度理论效能为 16TeraFlops,如十万颗组成超级电脑,就是 1.6ExaFlops,预估耗电量为 20MW。
  • AMD 在 2015 年 7 月 IEEE Micro 专文,表示 32 个 CPU 核心、320 个时脉 1GHz 的 GPU CU(20,480 个串流处理器)、3TB/s 内存带宽、160W 功耗,是能耗比最好的组态,总之实际的产品一定会变。
  • EHP 和 X3D 的技术资产会“推己及人”到 Zen 3 世代 EPYC 处理器“Milan”的可怕传言(像 10 颗 CCD 凑 80 核心或塞 HBM2 当 L4 之类的),一直没有停过。

EHP 也有配置芯片封装以外的外部内存,像断电后资料不会消失的 NVRAM(Non-Volatile RAM,如 英特尔/Micro 的 3D Xpoint 和发展中 SST-MRAM 等)和“内存内运算”的 PIM(Processing-In-Memory,内存内建位元运算电路),相关的动态内存管理与快取资料一致性,也是 AMD 需要克服的技术门槛,至于软件环境的完备性,更将是 AMD 能否追上 nVidia 的最核心因素。

同场加映:nVidia 也没吃饱闲着

近来因“光明的未来前瞻性”而让公司市值一举超越英特尔的 nVidia,在高效能运算、人工智能与自驾车等领域的优势地位几乎是牢不可破。除了账面硬件规格,发展了十多年的 CUDA 应用环境生态、远远超越英特尔和 AMD 的 GPU 虚拟化(这让客户使用 AMD GPU 部署云端个人电脑的效益会明显不如 nVidia,云端服务业者的虚拟 GPU 亦同,比较一下可负荷用户端数量,就知道差别有多大了)和更多“不足外人道也”之处,才是支撑 nVidia 股价的真正根基。

  • 禁止资料中心使用 GeForce 的 NVIDIA,是在滥用垄断地位吗?

将话题拉回多芯片封装这件事,就算不论以“训练”为主的高阶 GPU,nVidia 连“推论”用的芯片研究案都走向“多芯片封装延展性”。

但各位有没有想过一个更有趣的可能性:既然 nVidia 高阶 GPU 都这么大颗,干么不干脆“顺便”包一颗高效能的 ARM(或 RISC-V)指令集相容处理器,不再是英特尔、AMD 处理器的“附属品”,让 GPU 变身成“可自行开机的超级电脑系统单芯片”?

事实上,nVidia GPU 内本来就有内建好几颗简称为 Falcon(Fast Logic Controller)的微控制器,用来辅助 GPU 运算处理,像支援影像图形解码到安全性机制,或减轻 CPU 执行驱动程式的负担,如以前因为 Windows 操作系统的延迟程序呼叫(DPC,Deferred Procedure Call)会逾时而不能进行的排程等。

2016 年,nVidia 先采用柏克莱大学的开源 RISC-V 指令集相容处理器 Rocket,开发出第一代 Falcon 微控制器,2017 年第二代产品扩展到 64 位元,并自行新增自定义的新指令。前述由 27 颗封装而成的 RC18 推论芯片,也是 RISC-V 核心,每秒可执行 128 兆次推论,功耗仅 13.5W。

那么未来,假如 nVidia 将“更多的工作”搬到 GPU 内的 RISC-V 核心,特别是驱动程式涉及大量 GPU 底层机密资讯的“下面那一层”丢过去,或经由 GPU 虚拟化掩盖起来,又会发生什么事?这件牵扯到另一个少人知悉的潜在需求了:来自官方的开源驱动程式。

弦外之音:GPU 驱动程式开源的冲击

台面上看不到或少人着墨的议题,举足轻重的程度往往远超乎看热闹外行人的想像。

无论超级电脑还是人工智能(尤其是人命关天的自动驾驶),基于安全性考量,芯片厂商的客户或多或少都希望检视所有程式码,理所当然包含驱动程式,这就是 GPU 驱动程式开源之所以如此重要的主因。但偏偏这又是暗藏大量商业机密的黑盒子,要如何满足客户需求又不让机密外泄,大方释出“官方开源驱动程式”,就是 nVidia、AMD 甚至即将“GPU 战线复归”的英特尔,已经面对很久的机会与挑战。

技术的发展跟着应用的需求走,这恐怕也将会注定 AMD 靠着“超级电脑 APU”反攻高效能运算市场的企图能否悲愿成就的锁钥。点到为止,剩下的就留给各位慢慢思考了。

(首图来源:AMD)

2020-07-17 20:59:00

标签:   游戏头条 资讯头条 ggamen科技资讯 ggamen科技 ggamen科技资讯头条 科技资讯头条 ggamen游戏财经 新闻网 科技新闻网 科技新闻 ggamen游戏新闻网 科技新闻 科技新闻网 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技资讯头条 ggamen科技 资讯头条 游戏头条 ggamen ggamen游戏新闻网 科技新闻 科技新闻网 ggamen游戏财经 科技资讯头条 ggamen科技资讯头条 ggamen科技 ggamen科技资讯 游戏头条
0