再长的隧道,走到底,终将看到尽头的光芒。再多的牙膏,挤到底,终将换成全新的一条。
从 1989 年至今,固定每年夏天举办的处理器产业界盛事 Hot Chips,今年第 32 届(8 月 16~18 日)因武汉肺炎,改成首次线上直播,无缘重现去年 1,700 名与会者的盛况,这对不少人心目中“处理器业界最好的技术研讨会”,不啻是个令人惋惜的遗憾。
毕竟 Hot Chips(与春季 COOL Chips)是 IEEE(电机电子工程师学会)挂名的研讨会,芯片厂商趁机“宣扬国威”,展现有别于技术行销简报的内容深度。理所当然,也有那种内容很没诚意、大部分和一般活动没啥两样,如某间知名的“摩尔定律牙膏厂”,更有那种全世界都超想看到他们上台(参加 ISSCC 就更要放烟火了),像最近宣布要用自家芯片取代牙膏厂的那家,却迟迟不见踪影。
提醒一下,天下没有白吃的午餐,别以为线上活动就能看免钱。看在本届不用花大钱飞到美国还要搞定麻烦的交通住宿的份上,搞不好今年共襄盛举的人数会有爆炸性成长。假如没绝对必要,顶多就像懒惰的笔者,躺在家里装死,等著官网年底放上影片和简报就够了,不必太认真,一认真起来,你的荷包就要像三峡大坝那样泄洪了。
但 Hot Chips 32 垄罩在武汉肺炎的阴霾下是一回事,5 月底预先公布的议程,赫然出现以下主题,让人眼睛一亮:
当笔者搭捷运用手机盯着刚发表的议程,霎时眼前一阵模糊……不对,是不小心没戴好口罩,所以眼镜起雾了。
根本不是定律的摩尔定律
说到家喻户晓的摩尔定律,总让笔者回想起某集《呆伯特》漫画的剧情。
老板:“我听说干我们这一行,每天都要工作 16 小时才有竞争力。”
呆伯特:“那我们就这样放话,竞争对手就会没日没夜跟我们拚命到底。”
老板:“难道这是真的?”
呆伯特:“我们自己差点就上当了。”
世人都耳熟能详由英特尔(Intel)创办人之一发明的“摩尔定律”:积体电路的晶体管数量,从 12 个月(最初版)到 24 个月(官方文宣)中间取平均值的 18 个月,就会翻倍一次,也成为英特尔这间创社超过半世纪公司的“登山宝训”,英特尔也公认是这条“不是定律的定律”的最大受益者。
曾经有人戏称:摩尔定律存在目的在于“保障半导体产业工程师的生活品质”,反正只要达标,即可交差了事。少了摩尔定律这条终点线,大家都会卯起来拼个天荒地老,半导体产业的进步速度只会更快。
不过,当半导体制程微缩的程度到达奈米等级(一根头发的直径约是 30,000~50,000 奈米,这比喻让人比较有感)之后,相关研究领域的复杂度如火箭直冲天际,这种飘飘然的观点,就只会惹来一堆专业人士白眼,最起码,爆肝工程师一定很有意见。
近来传闻英特尔预定 2021 年量产 7 奈米制程,可能将重蹈 10 奈米覆辙,就有人这样评论:越来越少美国人愿意去做先进制程研发这种苦差事。观台积电靠着 24 小时研发三班制的“夜鹰计划”,以 10 奈米制程为起点,一举赶超英特尔和三星。也难怪也有人这样感慨:以后半导体产业的从业人员,恐怕只有“吃苦耐劳的亚洲人”。
摩尔第二定律:先进半导体制程的成本只会越来越高
但你知道还有另一条预言“晶圆厂的建造成本呈现指数型成长,每隔 4 年就会倍增”的“摩尔第二定律”吗?这当然不是 Golden Moore 说的,而是由说服 Sherman Fairchild 成立快捷半导体(Fairchild Semiconductor)的 Arthur Rock 所创造,也称为“洛克定律”(Rock’s Law)。相较于近似“预言”的摩尔第一定律,这条追加版,更像经过长期观察趋势后的总结。
1986 年,英特尔制造 25 万晶体管的 386 处理器,晶圆厂耗资 2 亿美元。十年后,英特尔生产 600 万晶体管的 Pentium 处理器(这里应指 550 万核心晶体管的 Pentium Pro),所需相关设备则是十倍的 20 亿美元。然后呢?
直接影响也很简单:“摩尔定律第一定律”就此钝化。
专注于晶圆代工的台积电,刚刚好就是摩尔第二定律的象征:2019 年资本支出为 140 亿至 150 亿美元,2020 年则增加到 150 亿至 160 亿美元。80% 用在 7 奈米/5 奈米/3 奈米先进制程,10% 投入先进封装与光罩,剩下 10% 挹注特殊制程技术。
以台积电位于中科的 Fab 15 为例,从 2010 年动工到 2012 年量产 28 奈米到演进至 7 奈米,陆续投入超过 3 千亿台币资金,也就相当于 100 亿美元。2018 年在南科兴建的 5 奈米 12 吋晶圆厂 Fab 18,总投资金额更高达 250 亿美元,约台币 7,500 亿元。这种以“百亿美元”为基本单位的军备竞赛,玩得起的厂商只会越来越少。
随着 2018 年格芯(Global Foundries)无限期搁置 7 奈米制程,牌桌上的玩家只剩下台积电、三星和英特尔硕果仅存的“御三家”,且其中两家看起来好像也颇挣扎的样子。
种种因素导致先进制程的成本持续水涨船高。从 7 奈米开始,引进 EUV 更让微影光刻设备成本高达前代 2 倍,这些多出来的费用当然都转嫁到寄给客户的账单。从 AMD 已披露的资料推算,7 奈米晶体管密度可达 14 奈米 1.7 倍,但单位晶体管的成本仍不减反增,选择 Chiplet 多芯片封装路线,实乃不得不然。近年来,新型多芯片封装技术的发展(如台积电 CoWos 和 InFo,英特尔的 EMIB、Foveros、Co-EMIB 与 ODI,可参考《【x86 兴衰史】AMD 翻身有望?英特尔规格制程挤牙膏与 AMD 的跃进》一文)亦方兴未艾,或多或少意味着众人将准备迎接摩尔定律的终点。
不只放弃盖厂,连自研芯片都快玩不下去
反过头来,随着制程节点进步,先进制程研发也跟着建厂费用一路节节高升,并不是这几年突然发生的现象,从 1990 年代末期就越来越多老玩家(像 DEC 这种从处理器研发、晶圆厂、系统制造都整套自己来的大公司,通常是第一波倒下的)选择退坑不玩。就算自己不生产芯片,服务器与个人电脑需要的先进高效能处理器,架构复杂度也是持续水涨船高,全部反应在漫长的开发时程、高昂的研发开销、高升的验证成本、激增的温度功耗。
- 《充满传奇色彩且对后世影响深远的 Alpha 处理器》
像英特尔初代 Pentium 4(2000 年,研发开案的时间点可倒推至 1995 年)就号称烧了 10 亿美元与动员 5 千人工程团队,而 IBM Power9 系列(2017~2020 年)更是骇人听闻的 30 亿美元(应包含服务器整体架构和相关软硬件,但也够吓人了)。英特尔令人发指的 14 奈米“牙膏秀”这几年,一颗衍生自现有核心微架构的处理器芯片,如某种核心数量与快取内存配置的独特晶粒,据闻也须耗资“5 千万美元开发费”与“3,200 万美元验证费”,就更不用提开光罩的开销和后继生产成本了。
不讲高效能泛用处理器,就瞧瞧“看来结构较单纯,乍看之下易于延展”的绘图芯片好了,开创 GPGPU 先河的 nVidia G80(Tesla 1.0)也是“4 年研发期(2002~2006 年)花掉 5 亿美元”。
总而言之,高效能泛用处理器(特别是连微架构都翻新的初代产品),入门费也冲上“10 亿”美元的历史新高。要降低研发费用并兼顾高性能,“运用成熟技术”与“技术供应链”就是唯一的最佳解答。“丰富的 IP 区块授权+成熟的电子辅助芯片设计工具+专业的晶圆代工”三位一体商务模式就是这样崛起,分工合作,各司其职。
除了多如繁星的消费性电子产品系统单芯片(智能手机为代表),最近一举夺下超级电脑 Top500 的 Fujitsu A64FX 堪称最佳例证,将“电脑的语言”从 SPARC 转向 ARM 就是如此不同,但塞满尖端科技的高阶产品如 A64FX,从开案到量产,也不少于 4 年。
- 《为了超级电脑而生的系统单芯片:从 IBM BlueGene_L 到 Fujitsu A64FX》
这也是从 1990 年代中期之后,x86 指令集相容处理器能够逐步由下往上爬、主宰高效能处理器的主因:巨大且快速成长的个人电脑市场,分担了英特尔和 AMD 研发与建厂的巨大开销,并成为进一步将势力范围延伸到服务器的雄厚本钱。在个人电脑年度出货量到达“1 亿台”历史大关的 1998 年,英特尔发表服务器专用的 Xeon 品牌,完完全全是历史的必然,毫无一丝一毫巧合。
- 《从 Power Mac G5 回顾 RISC 与 CISC 处理器的战争》
Mac 一年出货量不到 2 千万台,苹果“胆敢”推动 Apple Silicon 取代英特尔的 x86 指令集相容处理器,凭的也是一年 2 亿 6 千万支 iPhone 和 5 千万台 iPad 的基本盘。但尽管如此,货真价实的高效能设计(可争夺 Top500、SPEC CPU 和 TPC 霸权的那种,安兔兔可差远了)对苹果“应该”还是极度陌生的领域,虽然外界无法知悉苹果究竟做了多少前置准备,仍让人替苹果感到些许担忧与淡淡不安。
时至今日,高效能处理器市场,从 1980 年代的百家争鸣发展,不算入 ARM 体系,今日也仅剩 IBM(Power、z 系列大型主机)、英特尔(x86)、AMD(x86,是否重新投入 ARM 仍有待证实)、Fujitsu(GS 系列大型主机、SPARC、ARM)这 4 家。昔日 Sun 的 UltraSPARC?被 Oracle 购并多年后,跟着传奇操作系统 Solaris 殉情了。
各类花式挤牙膏的必然性
以上就是英特尔从 2014 年开始猛挤 14 奈米制程牙膏、IBM 放缓 Power 与 z 系列处理器发展步调(也许得同场加映 nVidia 的 GPU)的时代背景:既然羊毛出在羊身上,没从获利回收洒出去的投资之前,不是设法延长产品寿命,要不然就是“小步快跑”持续进行换汤不换药的小幅改款。
这样看来,似乎挤牙膏连挤多年的英特尔很值得同情。只不过,当各位看到英特尔这几年来因痴迷物联网、人工智能和自驾车,而生气乱买公司的金额,大概所剩无几的“同理心”就瞬间挥发得一点不剩了。
比较知名的购并案如下,有些比较不重要的就不提了。
- 2015 年:Altera,167 亿美元。
- 2016 年:Nervana,3.5 亿美元,这已确定是一无所获的失败收购。
- 2016 年:Movidius,金额不明。
- 2017 年:Mobileye,153 亿美元。
- 2018 年:eASIC,金额不超过 3 亿美元,并入 FGPA 部门。
- 2019 年:Habana Labs,20 亿美元。另一间软件定义网络(SDN)芯片新创企业 Barefoot 则金额不明,算是英特尔跟 nVidia 竞争 Mellanox 失败后的弥补措施。
- 2020 年:Moovit,10 亿美元。
- 《在人工智能芯片战场追逐 GPU 背影的英特尔》
笔者对这一串购并的唯一个人评论:就算再有闲钱,也不敢坐上“Intel Inside”的自驾车。
步调依旧稳定但越来越缓慢的蓝色巨人
身为高阶服务器的绝对王者,IBM 两条处理器产品线,想必老一辈的 IT 人都不陌生,但笔者还是替大家复习一下:
- CISC(复杂指令集电脑)的 z 系列:起源于 1964 年“人类历史上最大规模的商用产品开发计划”(1960 年的 50 亿美元相当于今日 430 亿美元)IBM S/360 大型主机(Mainframe),后代也开创了无数计算机工业的第一次,包含相同指令集架构的电脑可软件相容、微码控制单元、软驱(用来存放微码)、虚拟化、快取内存、“1 Byte(字节)=8 Bits(位元)”的工业标准、虚拟内存、非循序指令执行及预测执行能力,堪称近代电脑技术发展的缩影。
- RISC(精简指令集电脑)的 Power 系列:源自 1974 年启动的 IBM 801 迷你电脑计划,再经过 1982 年 Cheetah 和 1985 年 America,在 1990 年发展成 Power。2001 年上市的 Power4 处理器,不仅是人类历史上首颗原生双核心泛用处理器,更具历史意义的是:Power4 相容 IBM 所有当代 RISC 指令集,包含 PowerPC、RS/6000 和 AS/400,也奠定 Power 稳坐高阶 RISC 处理器之王的地位,或许更该说,也只剩下 IBM 有余力继续比气长,老对手都一个个阵亡了。
时下这两者的共同点只有一个:产品世代之间相隔越拉越长,尽管 IBM 以 Power6 和 z10 为起点,设法统一两边设计,以节约研发开销,还是躲不过摩尔第二定律的诅咒。
挤 Power9 挤了好多年终于挤出 Power10
再来看看 IBM 是怎么“挤”Power9 这条高贵的牙膏。
- 2016 年 8 月 Hot Chips。
- 2017 年 4 月 COOL Chips。
- 2018 年 8 月 Hot Chips。
- 2019 年 9 月 Hot Chips。
那打从一开始,IBM 的原始计划又如何?IBM 还曾打算“开放合作伙伴使用其他晶圆代工厂 10 奈米/7 奈米制程”(99% 是三星)授权生产的 Power8 和 Power9(黄色部分)提供“OpenPower”生态系统之用,那结果呢?
当然是自动消失了,要不然呢?你真以为那些“认真评估”甚至“少量部署”IBM Power 处理器的云端服务业者,不是只想把这个当成跟英特尔、AMD 杀价的筹码吗?
IBM 就这样一路从 Power9 SO(Scale-Out,增加运算节点的水平扩展)、Power9 SU(Scale-Up,堆高处理器核心数量的垂直扩展)、Power9 AIO(Advanced I/O,激增内存带宽),不间断微幅改进这颗先后后耗资 30 亿美元的“地球最强大服务器处理器”,充满了一堆令一般人深感匪夷所思的恐怖规格与产品价格。
但单纯论单处理器的核心数量,IBM 也早就看不到英特尔和 AMD 的车尾灯了,更何况,AMD 从 2017~2019 年,从 14 奈米制程的 Zen 到 7 奈米制程的 Zen 2,EPYC 大跃进式的核心数成长,Power9 的核心微架构再厉害,区区 12 个 SMT8 大核或 24 个 SMT4 小核,也抵不过 AMD 的 64 核 SMT2 人海战术。
要彻底介绍 Power9,没用一篇万字专文搞不定,如果读者有兴趣了解全貌,可参考笔者 2018 年发表于瘾科技的简文。
以内存扩充性和外部 I/O 规格为最大差异点,历代 Power9 处理器简介如下:
- Power9 SO:最大双处理器组态,直连 8 通道 DDR4 内存,最高容量 4TB,120GB/s 理论带宽。
- Power9 SU:最大 16 处理器组态,透过 8 通道缓冲芯片(DMI,Differential Memory Interface)提供加倍 8TB 容量和 230GB/s 理论带宽。
- Power9 AIO:最大 16 处理器组态,采用发展自“开放规范,并有可能成为 JEDEC 标准”的 OMI(Open Memory Interface)内存模组(Microchip PM8596 控制器),内存容量/理论带宽再激增至 8TB / 650GB/s 或 64TB / 320GB/s,并新增 OpenCAPI 4.0 界面。
老妖怪“魔神 z”最新成员:z15
将镜头转向支撑 IBM 服务器事业部门获利的 z 系列大型主机。基于半个多世纪以来,对于要求顶级稳定性(如每个月固定的薪资转账日造成的巨量 I/O 压力)、极致可靠度(毫不容许停机时间)与软件相容性(你确定今天金融业和保险业的 MIS 还看得懂几十年前用 COBOL 语言写的程式吗),IBM 大型主机业务几乎是无可替代的独门生意,除了“请你公司的核心账务系统整个砍掉重练的大型主机换机专案”,没有正面挑战的对手。
也因此,IBM 按照自己的节奏,稳定推出让客户升级的解决方案,即可功德圆满。
但 IBM 曾在 2018 年底宣布下一代 Power 与 z 处理器,将采用三星 7 奈米 EUV(极紫外线光刻)制程(相当于台积电预定生产 AMD Zen3 的 N7+),而早在 2019 年底上市的 z15 仍停在 14 奈米(可能时程赶不及,大型主机这种顶规产品的产品验证期都超级长),就看看让众人等待已久的 Power10 能否借由三星的“崭新制程”带给大家惊喜了。咦,这张三星的简报怎么看起来怪怪的?
挤牙膏挤到天怒人怨的英特尔
英特尔从 2014 年就开始从一年一度的“钟摆”(Tick-Tock)转向“新制程(Process)→新架构(Architecture)→最佳化(Optimization)”三段论。
以延宕已久的英特尔 10 奈米制程来说好了:
- 新制程(Process):2018 年 Cannon Lake 当前期验证,“Palm Cove”核心加入 AVX-512 指令集,而仅双核的 Core i3-8121U 则沦落为毫无存在感的短命产品。
- 新架构(Architecture):2019 年 Ice Lake 引入“Sunny Cove”核心,但初期导入的产品线也限于笔记型电脑,核心数也最多 4 核。好吧,服务器导向的 Ice Lake-SP 快要问世了。
- 最佳化(Optimization):2020 年 Tiger Lake 有更好的“Willow Cove”核心与 Xe 世代绘图技术,但目前已知最大组态也仅 4 核,人家 AMD 的 7 奈米 APU 早就 8 核。
英特尔还曾“溯及既往”的“逆向发明”更早的三段论,颇有“明朝的剑斩清朝的官”的味道:
- 新制程:2014 年 Broadwell。
- 新架构:2015 年 Skylake。
- 最佳化:连续猛挤 5 年牙膏。
真是让当年还深信英特尔会坚守钟摆承诺的人们情何以堪,领先业界“三年半”的技术优势,一下子统统不见了。
这张简报就是英特尔挤 14 奈米制程牙膏的铁证,赖都赖不掉,14 奈米 P1272 足足从 2014 年撑到 2021 年。
行文至此,笔者实在很懒得再浪费篇幅赘述英特尔这间公司“挤牙膏”的丰功伟业,一张“典范转移史”就足以胜过千言万语。
总算看得到 Ice Lake-SP 了
至于英特尔的“现金母牛”Xeon 产品线,从 2017 年到现在,14 奈米制程历代产品的改良幅度也极为有限,甚至明显不如 IBM Power9(这样讲当然有点不公平,IBM 手握高度垂直系统整合的封闭优势,自然比较有本钱想做什么就做什么,这也将是苹果全面处理器自研化的王牌):
- Skylake→Cascade Lake:AVX-512 指令集新增“人工智能推论最佳化”的 VNNI,重点在于 INT8 / INT16 短整数,顺便补上原本就该对应的 Optane 内存模组(代号 Apache Pass)。
- Cascade Lake→Cooper Lake:再追加“人工智能学习最佳化”的 BF16 浮点格式,接着再上演身为全新 Xeon 平台 Whitley 先锋的 Cooper Lake-SP,因不明原因惨遭腰斩的脱线番外篇,偏偏架构较新的 Ice Lake-SP 又没 BF16,像 Facebook 这些需要 BF16 的超级大客户,请乖乖使用多处理器版本的 Cooper Lake-P。
坦白讲,先不提产品本身的优胜劣败,服务器和资料中心市场本身有很大的“动量”,一踏进去就很难马上被赶出来(AMD 的 Opteron 生命末期也是苦撑很久),考量到英特尔在“商业手段”(产品套餐、行销补助)和“生态系统”(技术支援、产品选择)依旧享有压倒性优势,AMD 要重回过去 30% 的高峰,还是相当困难。
但假若 AMD 迫使英特尔透过降价或回扣(Rebate)等商业手段,来维持市占率,这必然伤害获利能力,自然也降低研发预算和资本支出,尤其是所费不赀、却非得设法重振旗鼓的尖端半导体制程技术与先进晶圆厂的建造费用。俗话说的好,天下没有白吃的午餐,出来混的,总是要还。
- 《【x86 兴衰史】AMD 真能翻身压倒英特尔吗?从应用优劣来探讨可能性》
- 《英特尔调整新一代 Xeon 服务器平台到底是为了什么?》
等了多年,笔电处理器总算有点看头
无论猛挤牙膏的英特尔还是重返农药的 AMD,这些年来,笔电处理器一直缺乏让笔者打起精神的有趣话题。年初登场的 AMD 7 奈米制程 Renoir APU,与脚步声越来越近的“10 奈米制程最佳化架构”(前述三段论的第三部分)英特尔 Tiger Lake,总算让笔者不再无聊。
我们再将焦点转向英特尔和 AMD 即将爆发激战的笔电处理器,相对于服务器,笔电市场更有可能短期内风云变色。据说英特尔为了“惩罚”因 14 奈米制程处理器缺货,而被迫增加 AMD 机种数量的笔电大厂,变相加速客户流失的脚步是吧?
两家厂商同场较劲,但观察重点只有两个:
- AMD Renoir APU 的绘图核心,是不是只有 8 个(盛传实际将多达 13~15 个)。
- 英特尔 Tiger Lake 处理器核心,是不是只有 4 个(8 核心将成为笔电的新卖点)。
- 《狼真的来了?AMD 的 CPU 真能登陆苹果 Mac 电脑?》
- 《A12X 解封成 A12Z 非个案!封锁再解封成新品早是业界惯用手法》
差点忘了,Tiger Lake 还有一个亮点:全新世代的绘图核心。
随着英特尔与美国能源部合作的 Aurora 超级电脑计划,英特尔 2019 年 3 月公开了 GPU 架构正式名称“Xe”和“软件堆叠”OneAPI。2019 年 5 月公布首颗整合 Xe 架构 GPU 的 Tiger Lake,预计 2020 下半年上市,距离现在也不远了。
英特尔 2019 年 11 月的 SC19 进一步宣布用于高效能运算与人工智能的“Ponte Vecchio”Xe 架构 GPU,并公布让人联想到 NVIDIA DGX-2 的系统架构示意图。
关于 Tiger Lake 的绘图效能,英特尔从 AMD 挖角 Raja Koduri 并四处招兵买马,企图重建 GPU 技术基础而诞生的 Xe 绘图引擎(以及那个 OneAPI),技术细节和实际性能,也注定将吸引大量目光。但投资人更在意的是:重生后的英特尔独立显示芯片,会不会变成台积电生产的产品?
- 《英特尔与 AMD 把各自擅长的 CPU、GPU 送作堆,背后脉络是什么?》
- 《为了打造自家 GPU,英特尔到底从 AMD 疯狂挖角多少人才?》
- 《英特尔为 2020 年成功推出独立显卡,直捣 AMD 大本营抢人、抢技术》
意外的花絮:“处理器游侠”Jim Keller 担纲的主题演讲
原先本届 Hot Chips 第一天,会有一场由英特尔 Jim Keller 担纲的主题演讲,但他本人却在 6 月初因个人因素立即离职生效,故阵前换将成主导英特尔 GPU 的 Raja Koduri。假使能多谈谈英特尔的 GPU 布局,而不是挤牙膏挤到天荒地老的 CPU,对关注 Hot Chips 的任何人,也不是什么坏事就是了。
- 《只手改写 AMD 与 Intel 争霸史的男人,处理器游侠 Jim Keller》
- 《英特尔知名芯片设计师 Jim Keller 突然宣布离职》
挤了多年的牙膏终究有挤完的一天,让我们继续期待下一条牙膏能挤多长多久。再仔细端倪全部议程后,结论就是今年的 Hot Chips 将会非常精彩,请各位拭目以待。
(首图来源:pixabay)