从先进封装技术发展，检视 AMD 的超级电脑布局 04月20日更新

“包水饺”不但是传统技艺，更将是尖端科技。

以《战略绪论》一书闻名的近代法国战略大师薄富尔曾说：“战略的要义是‘预防’而非‘治疗’，‘未来和准备’比‘现在和执行’更重要。”半导体业界亦同，当摩尔定律所预言的制程微缩曲线开始钝化，将不同制程性质的芯片，透过多芯片封装包在一起，以最短的时程推出符合市场需求的产品，就成为重要性持续水涨船高的技术显学。

而这些先进芯片封装也成为超级电脑和人工智能的必备武器。别的不提，光论 nVidia 和 AMD 的高效能运算专用 GPU、Google 第二代 TPU、无数“人工智能芯片”，就处处可见 HBM 内存的存在。

在人工智能芯片战场追逐 GPU 背影的英特尔

毕竟天底下没有面面俱到的半导体制程，观察到先进制程晶圆厂每隔 4 年成本倍增的“摩尔第二定律”，也突显了晶体管单位成本越来越高的残酷现实。AMD 处理器从 7 奈米制程开始全面性“Chiplet 化”，将 7 奈米制程的 CPU 核心和 12 奈米制程的 I/O 内存控制器分而治之，实乃不得不然。

发展方兴未艾的先进封装技术

也因此，无论台积电还是英特尔，无不拚命加码，相关产品也如雨后春笋一个个冒出头来，而 AMD 更在未来产品计划，大剌剌写着“融合 2.5D 与 3D 的 X3D 封装”（虽然大概也是直接沿用台积电的现有技术），以达成超过时下产品十倍的内存带宽密度。

稍微替各位复习一下什么是“2.5D”封装，台积电拥有超过 60 个实际导入案例的 CoWos（Chip-on-Wafer-on-Substrate）算是这领域最为知名的技术，包含近期夺下超级电脑 Top500 榜首的 Fujitsu A64FX。英特尔用自家 EMIB（Embedded Multi-Die Interconnect Bridge）将 Kaby Lake 处理器与 AMD Vega 绘图核心“送作堆”的 Kaby Lake-G，也曾是轰动一时的热门话题。

为了超级电脑而生的系统单芯片：从 IBM BlueGene_L 到 Fujitsu A64FX
英特尔与 AMD 把各自擅长的 CPU、GPU 送作堆，背后脉络是什么？

有别于“2D”的 SiP（System-in-Package），2.5D 封装在 SiP 基板和芯片之间，插入了硅中介层（Silicon Interposer），透过硅穿孔（TSV，Through-Silicon Via）连接上下的金属层，克服 SiP 基板（像多层走线印刷电路板）难以实做高密度布线而限制芯片数量的困难。

“叠叠乐”的 3D 封装就不难理解了，台积电就靠着可减少 30% 的封装厚度 InFO（Integrated Fan-Out），在 iPhone 7 的 A10 处理器订单争夺战击败三星，终结了消费者购买 iPhone 6S 还得担心拿到三星版 A9 的尴尬处境（笔者不幸曾是受害者之一）。但 3D 封装的散热手段与热量管理，也是明摆在半导体产业界的艰钜挑战。

台积电藉 InFO 晶圆级封装技术，独拿 A10 处理器产能订单

英特尔相对应的 3D 封装技术则为 Foveros。最近正式发表、代号 Lakefield 的“混合式 x86 架构处理器”，堆叠了“1 大 4 小核心”的 10 奈米制程（代号 P1274）运算芯片、22 奈米制程（代号 P1222）系统 I/O 芯片和 PoP（Package-on-Package）封装的内存，待机耗电量仅 2mW。

英特尔 2019 年 7 月公布的 Co-EMIB，用 2.5D 的 EMIB 连接多个 3D 的 Foveros 封装，“整合成具备更多功能”的单一芯片。为 EMIB 概念延伸的 ODI（Omni-Directional Interconnect）则用来填补 EMIB 与 Foveros 之间的鸿沟，为封装内众多裸晶连接提供更高灵活性，细节在此不论。

连接封装内多颗裸晶之间的总线也是不可或缺的技术。

英特尔在 2017 年将 EMIB 连接裸晶的“硅桥”（Silicon Bridge）正式命名为“先进界面总线”（AIB，Advanced Interface Bus）并公开免费授权，2018 年将 AIB 捐赠给美国国防先进研究计划署（DARPA），当作免专利费的裸晶互连标准，MDIO（Multi-Die I/O）则是 AIB 的下一代。台积电相对应技术则为 LIPINCON（Low-voltage-INPackage-INterCONnect），规格与英特尔互有长短。

台积电与 ARM 展示业界首款 7 奈米 Arm 核心 CoWoS 小芯片系统

超级电脑用的系统单芯片并非 IBM 和 Fujitsu 的专利

长期关心 ARM 指令集相容处理器与超级电脑的读者，想必对先前采用 Fujitsu A64FX 处理器打造的日本理化学研究所的“富岳”并不陌生。这颗台积电 7 奈米制程并 CoWoS 2.5D 封装 4 颗 8GB HBM2 内存的产物，堪称当代最具代表性的“超级电脑专用系统单芯片”，让人不得不想起十几年前的 IBM BlueGene/L。

为了超级电脑而生的系统单芯片：从 IBM BlueGene_L 到 Fujitsu A64FX

曾在 21 世纪初期靠着“地球模拟器”（Earth Simulator）独领风骚两年多的 NEC，其 SX 向量处理器的最新成员 SX-Aurora TSUBASA，也是台积电 16 奈米制程、2.5D 封装 6 颗 8GB HBM2 内存的超级电脑心脏。

而英特尔的 Xeon Phi 系列更是知名代表，透过 2.5D 封装包了 8 颗 2GB MCDRAM（Multi-Channel DRAM），可设定为快取内存、主内存或混合两者之用。虽然 Xeon Phi 家族两年前惨遭腰斩，中断自从 Larrabee 以来的“超级多核心 x86”路线，英特尔决定整个砍掉重练，一步一脚印重头打造“传统 GPU”当作未来高效能运算与人工智能应用的基础，但异质多芯片封装的重要性仍不减反增，最起码被英特尔从 AMD 挖角、主导 GPU 发展的 Raja Koduri，自己是这样讲的，也没什么怀疑的空间。

【x86 兴衰史】奠定 Intel Xeon Phi 技术基础的“x86 处理器显卡”：Larrabee

不过 AMD 也并未缺席，并看似有后来居上的气势，而且这并非突发奇想，早在 2010 年之前，就开始进行长期研究，至今超过十年，并“很有可能”以 EHP（Exascale Heterogenous Processor）之名开花结果，融合 2.5D 与 3D 封装的 X3D 则是达成 EHP 的关键。

Exa 意指 Peta 的 1 千倍，也是近年来超级电脑的下一个竞争指标，像预定采用 AMD Zen 2 世代 EPYC 处理器的美国国家核能安全管理局 El Capitan 超级电脑，理论运算效能就超过 2ExaFlops。

AMD 自从 2007 年购并 ATI 之后，整合处理器与绘图核心的 APU 之路，一直走得相当挣扎，迟迟难以找到适合的产品规格与市场定位，不是 CPU 不够好、GPU 不够强、就是两者都不上不下，到了 Zen 2 世代才算脱胎换骨。

这些年来，AMD 在超级电脑市场逐渐边缘化，今年 6 月的 Top500 只剩下 10 台 AMD CPU 和一台 AMD GPU，更需要强力的新兵器，才能“突破英特尔和 nVidia 的封锁”。身为“超级电脑 APU”的 EHP 就成为 AMD 默默进行的新方向。

从历史脉络理解 AMD 为何要双轨化 GPU 发展路线
狼真的来了？AMD 的 CPU 真能登陆苹果 Mac 电脑？

以加拿大 ATI 身份在 2010 年申请“借由假硅穿孔替 3D 封装进行导热”（Dummy TSV To Improve Process Uniformity and Heat Dissipation）专利为起点，AMD 一路累积了“内存运算的快取资料一致性”（2016 年）、“3D 晶粒堆叠的热量管理”（2017 年）、“拥有极致带宽与可延展性能耗比的 GPU 架构”（2017 年）、“内存内运算的阵列”（2018 年）、“循环脱离预测（2018 年）以改善闲置模式的效率”到“混合 CPU 与 GPU 的动态内存管理”（2018 年）等成果，确定了 AMD 在 2015 年的财务分析师大会透露的“服务器专用 APU”与当年 7 月 IEEE Micro 发表的“借由异质运算实现百亿亿级运算”（Achieving Exascale Capabilities through Heterogeneous Computing）计划并不是玩假的，更何况现在 AMD 当家作主的还是一位以务实闻名的全球薪酬最高女性首席执行官。

根据已公开的资料，EHP 概略规格如下，但后面势必将随着技术演进而有更动：

32 个 CPU 核心（当时是 8 颗 4 核心 CCD）。
8 颗 32 个 GPU CU，总计 256 CU 与 16,384 个串流处理器（那时预定是 GCN 第五代的 Vega，看来将会推进到 CDNA）。
8 块 4GB HBM2 内存堆叠。
时脉 1GHz 时，双倍浮点精确度理论效能为 16TeraFlops，如十万颗组成超级电脑，就是 1.6ExaFlops，预估耗电量为 20MW。
AMD 在 2015 年 7 月 IEEE Micro 专文，表示 32 个 CPU 核心、320 个时脉 1GHz 的 GPU CU（20,480 个串流处理器）、3TB/s 内存带宽、160W 功耗，是能耗比最好的组态，总之实际的产品一定会变。
EHP 和 X3D 的技术资产会“推己及人”到 Zen 3 世代 EPYC 处理器“Milan”的可怕传言（像 10 颗 CCD 凑 80 核心或塞 HBM2 当 L4 之类的），一直没有停过。

EHP 也有配置芯片封装以外的外部内存，像断电后资料不会消失的 NVRAM（Non-Volatile RAM，如英特尔／Micro 的 3D Xpoint 和发展中 SST-MRAM 等）和“内存内运算”的 PIM（Processing-In-Memory，内存内建位元运算电路），相关的动态内存管理与快取资料一致性，也是 AMD 需要克服的技术门槛，至于软件环境的完备性，更将是 AMD 能否追上 nVidia 的最核心因素。

同场加映：nVidia 也没吃饱闲着

近来因“光明的未来前瞻性”而让公司市值一举超越英特尔的 nVidia，在高效能运算、人工智能与自驾车等领域的优势地位几乎是牢不可破。除了账面硬件规格，发展了十多年的 CUDA 应用环境生态、远远超越英特尔和 AMD 的 GPU 虚拟化（这让客户使用 AMD GPU 部署云端个人电脑的效益会明显不如 nVidia，云端服务业者的虚拟 GPU 亦同，比较一下可负荷用户端数量，就知道差别有多大了）和更多“不足外人道也”之处，才是支撑 nVidia 股价的真正根基。

禁止资料中心使用 GeForce 的 NVIDIA，是在滥用垄断地位吗？

将话题拉回多芯片封装这件事，就算不论以“训练”为主的高阶 GPU，nVidia 连“推论”用的芯片研究案都走向“多芯片封装延展性”。

但各位有没有想过一个更有趣的可能性：既然 nVidia 高阶 GPU 都这么大颗，干么不干脆“顺便”包一颗高效能的 ARM（或 RISC-V）指令集相容处理器，不再是英特尔、AMD 处理器的“附属品”，让 GPU 变身成“可自行开机的超级电脑系统单芯片”？

事实上，nVidia GPU 内本来就有内建好几颗简称为 Falcon（Fast Logic Controller）的微控制器，用来辅助 GPU 运算处理，像支援影像图形解码到安全性机制，或减轻 CPU 执行驱动程式的负担，如以前因为 Windows 操作系统的延迟程序呼叫（DPC，Deferred Procedure Call）会逾时而不能进行的排程等。

2016 年，nVidia 先采用柏克莱大学的开源 RISC-V 指令集相容处理器 Rocket，开发出第一代 Falcon 微控制器，2017 年第二代产品扩展到 64 位元，并自行新增自定义的新指令。前述由 27 颗封装而成的 RC18 推论芯片，也是 RISC-V 核心，每秒可执行 128 兆次推论，功耗仅 13.5W。

那么未来，假如 nVidia 将“更多的工作”搬到 GPU 内的 RISC-V 核心，特别是驱动程式涉及大量 GPU 底层机密资讯的“下面那一层”丢过去，或经由 GPU 虚拟化掩盖起来，又会发生什么事？这件牵扯到另一个少人知悉的潜在需求了：来自官方的开源驱动程式。

弦外之音：GPU 驱动程式开源的冲击

台面上看不到或少人着墨的议题，举足轻重的程度往往远超乎看热闹外行人的想像。

无论超级电脑还是人工智能（尤其是人命关天的自动驾驶），基于安全性考量，芯片厂商的客户或多或少都希望检视所有程式码，理所当然包含驱动程式，这就是 GPU 驱动程式开源之所以如此重要的主因。但偏偏这又是暗藏大量商业机密的黑盒子，要如何满足客户需求又不让机密外泄，大方释出“官方开源驱动程式”，就是 nVidia、AMD 甚至即将“GPU 战线复归”的英特尔，已经面对很久的机会与挑战。

技术的发展跟着应用的需求走，这恐怕也将会注定 AMD 靠着“超级电脑 APU”反攻高效能运算市场的企图能否悲愿成就的锁钥。点到为止，剩下的就留给各位慢慢思考了。

（首图来源：AMD）

从先进封装技术发展，检视 AMD 的超级电脑布局

发展方兴未艾的先进封装技术

超级电脑用的系统单芯片并非 IBM 和 Fujitsu 的专利

同场加映：nVidia 也没吃饱闲着

弦外之音：GPU 驱动程式开源的冲击

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

"Metaphorical Fantasy: ReFantazio"latest new

"Persona 3 Reload".ON PC PS4

姐妹们 !我们村的咖啡馆老火了

库迪瑞幸价格战，小镇咖啡会受影响吗？

王者榮耀攻速暴擊流呂布銘文出裝

王者榮耀最強暴擊流李白怎麽出裝，暴擊流李白出裝銘文裝備推薦

王者榮耀國服夏洛特最強輸出流出裝連招銘文推薦

沒有2023年王者榮耀1月2日更新了什麽？最新改動具體內容

鬥羅大陸魂師對決千仞雪魂環搭配 sp千仞雪技能解析

鬥羅大陸魂師對決最強控製流陣容怎麽搭配？獨孤博阿銀控製流玩法

关于我们

新闻资讯

意见反馈

网站地图