软件吞噬硬件的 AI 时代，芯片跟不上算法的进化要怎么办？ 04月25日更新

身为 AI 时代的幕后英雄，芯片业正经历渐进持续的变化。

2008 年之后，深度学习算法逐渐兴起，各种神经网络渗透到手机、App 和物联网。同时摩尔定律却逐渐放缓。摩尔定律虽然叫定律，但不是物理定律或自然定律，而是半导体业发展的观察或预测，内容为：单芯片整合度（积体电路中晶体管的密度）每 2 年（也有 18 个月之说）翻倍，带来性能每 2 年提高 1 倍。

保证摩尔定律的前提，是芯片制程进步。经常能在新闻看到的 28 奈米、14 奈米、7 奈米、5 奈米，指的就是制程，数字越小制程越先进。随着制程的演进，特别进入10 奈米后，逐渐逼近物理极限，难度越发增加，芯片全流程设计成本大幅增加，每代较上一代至少增加 30%~50%。

▲ 不同制程节点的芯片设计制造成本。（Source：ICBank）

这就导致 AI 对算力需求的增长速度，远超过通用处理器算力的增长速度。据 OpenAI 测算，从 2012 年开始，全球 AI 所用的演算量呈现等比级数增长，平均每 3.4 个月便会翻 1 倍，通用处理器算力每 18 个月至 2 年才翻 1 倍。

当通用处理器算力跟不上 AI 算法发展，针对 AI 演算的专用处理器便诞生了，也就是常说的“AI 芯片”。目前 AI 芯片的技术内涵丰富，从架构创新到先进封装，再到模拟大脑，都影响 AI 芯片走向。这些变化的背后，都有共同主题：以更低功耗，产生更高性能。

更灵活

2017 年图灵奖颁给电脑架构两位先驱 David Petterson 和 John Hennessy。2018 年图灵奖演讲时，他们聚焦于架构创新主题，指出演算体系结构正迎来新的黄金 10 年。正如他们所判断，AI 芯片不断出现新架构，比如英国 Graphcore 的 IPU──迥异于 CPU 和 GPU 的 AI 专用智慧处理器，已逐渐被业界认可，并 Graphcore 也获得微软和三星的战略投资支援。

名为 CGRA 的架构在学界和工业界正受到越来越多关注。CGRA 全称 Coarse Grained Reconfigurable Array（粗颗粒可重构阵列），是“可重构计算”理念的落地产物。

据《可重构计算：软件可定义的计算引擎》一文介绍，理念最早出现在 1960 年代，由加州大学洛杉矶分校的 Estrin 提出。由于太过超前时代，直到 40 年后才获得系统性研究。加州大学柏克莱分校的 DeHon 等将可重构计算定义为具以下特征的体系结构：制造后芯片功能仍可客制，形成加速特定任务的硬件功能；演算功能的实现，主要依靠任务到芯片的空间映射。

简言之，可重构芯片强调灵活性，制造后仍可透过程式语言调整，适应新算法。形成高度对比的是 ASIC（application-specific integrated circuit，专用积体电路）。ASIC 芯片虽然性能高，却缺乏灵活性，往往是针对单一应用或算法设计，难以相容新算法。

2017 年，美国国防部高级研究计划局（Defence Advanced Research Projects Agency，DARPA）提出电子产业复兴计划（Electronics Resurgence Initiative，ERI），任务之一就是“软件定义芯片”，打造接近 ASIC 性能、同时不牺牲灵活性。

照重构时的颗粒分别，可重构芯片可分为 CGRA 和 FPGA（field-programmable gate array，现场可程式语言逻辑门阵列）。FPGA 在业界有一定规模应用，如微软将 FPGA 芯片带入大型资料中心，用于加速 Bing 搜索引擎，验证 FPGA 灵活性和算法可更新性。但 FPGA 有局限性，不仅性能和 ASIC 有较大差距，且重程式语言门槛比较高。

CGRA 由于实现原理差异，比 FPGA 能做到更底层程式的重新设计，面积效率、能量效率和重构时间都更有优势。可说 CGRA 同时整合通用处理器的灵活性和 ASIC 的高性能。

▲ 可重构计算架构与现有主流计算架构在能量效率和灵活性对比。（Source：中国科学）

随着 AI 演算逐渐从云端下放到边缘端和 IoT 设备，不仅算法多样性日益增强，芯片更零碎化，且保证低功耗的同时，也要求高性能。在这种场景下，高能效高灵活性的 CGRA 大有用武之地。

由于结构不统一、程式语言和编译工具不成熟、易用性不够友善，CGRA 未被业界广泛使用，但已可看到一些尝试。早在 2016 年，英特尔便将 CGRA 纳入 Xeon 处理器。三星也曾尝试将 CGRA 整合到 8K 电视和 Exynos 芯片。

中国清微智慧 2019 年 6 月量产全球首款 CGRA 语音芯片 TX210，同年 9 月又发表全球首款 CGRA 多模态芯片 TX510。这家公司脱胎于清华大学魏少军教授起头的可重构计算研究团队，从 2006 年起就进行相关研究。据芯东西 2020 年 11 月报导，语音芯片 TX210 已出货数百万颗，多模组芯片 TX510 在 11 月也出货 10 万颗以上，主要客户为智慧门锁、安防和脸部支付相关厂商。

先进封装上位

如开篇提到，由于制程逼近物理极限，摩尔定律逐渐放缓。同时 AI 算法的进步，对算力需求增长迅猛，逼迫芯片业在先进制程之外探索新方向，之一便是先进封装。

“在大数据和认知计算时代，先进封装技术正在发挥比以往更大的作用。AI 发展对高效能、高吞吐量互连的需求，正透过先进封装技术加速发展来满足。 ”世界第三大晶圆代工厂格罗方德平台首席技术专家 John Pellerin 声明表示。

先进封装是相对于传统封装的技术。封装是芯片制造的最后一步：将制作好的芯片器件放入外壳，并与外界器件相连。传统封装的封装效率低，有很大改良空间，而先进封装技术致力提高整合密度。

先进封装有很多技术分支，其中 Chiplet（小芯片／芯粒）是最近 2 年的大热门。所谓“小芯片”，是相对传统芯片制造方法而言。传统芯片制造方法，是在同一块硅芯片上，用同一种制程打造芯片。Chiplet 是将一块完整芯片的复杂功能分解，储存、计算和讯号处理等功能模组化成裸芯片（Die）。这些裸芯片可用不同制程制造，甚至可是不同公司提供。透过连接界面相接后，就形成一个 Chiplet 芯片网络。

据壁仞科技研究院唐杉分析，Chiplet 历史更久且更准确的技术词汇应该是异构整合（Heterogeneous Integration）。总体来说，此技术趋势较清晰明确，且第一阶段 Chiplet 形态技术较成熟，除了成本较高，很多高端芯片已经在用。

如 HBM 储存器成为 Chiplet 技术早期成功应用的典型代表。AMD 在 Zen2 架构芯片使用 Chiplet 思路，CPU 用的是 7 奈米制程，I/O 使用 14 奈米制程，与完全由 7 奈米打造的芯片相比成本约低 50%。英特尔也推出基于 Chiplet 技术的 Agilex FPGA 系列产品。

▲ 异构整合成示意动画。（Source：IC 智库）

不过，Chiplet 技术仍面临诸多挑战，最重要之一是互连界面标准。互连界面重要吗？如果是在大公司内部，比如英特尔或 AMD，有专用协议和封闭系统，在不同裸芯片间连接问题不大。但不同公司和系统互连，同时保证高带宽、低延迟和每比特低功耗，互连界面就非常重要了。

2017 年，DARPA 推出 CHIPS 战略计划（通用异构整合和 IP 重用战略），试图打造开放连接协议。但 DARPA 的缺点是，侧重国防相关计划，芯片数量不大，与真正商用场景有差距。因此一些芯片业公司成立组织“ODSA（开放领域特定架构）工作组”，透过制定开放的互连界面，为 Chiplet 的发展扫清障碍。

另辟蹊径

除了在现有框架内做架构和制造创新，还有研究人员试图跳出电脑现行的范纽曼型架构，开发真正模拟人脑的计算模式。

范纽曼架构，数据计算和储存分开进行。RAM 存取速度往往严重落后处理器的计算速度，造成“内存墙”问题。且传统电脑需要透过总线，连续在处理器和储存器之间更新，导致芯片大部分功耗都消耗于读写数据，不是算术逻辑单元，又衍生出“功耗墙”问题。人脑则没有“内存墙”和“功耗墙”问题，处理讯息和储存一体，计算和记忆可同时进行。

▲ 通用处理器的典型操作耗能。（Source：中国科学）

另一方面，推动 AI 发展的深度神经网络，虽然名称有“神经网络”四字，但实际上跟人脑神经网络运作机制相差甚远。1,000 亿个神经元，透过 100 万亿个神经突触连接，使人脑能以非常低功耗（约 20 瓦）同步记忆、演算、推理和计算。相比之下，目前的深度神经网络，不仅需大规模资料训练，运行时还要消耗极大能量。

因此如何让 AI 像人脑一样工作，一直是学界和业界积极探索的课题。1980 年代后期，加州理工学院教授卡弗·米德（Carver Mead）提出神经形态工程学的概念。经过多年发展，业界和学界对神经形态芯片的摸索逐渐成形。

软件方面，称为第三代人工神经网络的“脉冲神经网络”（Spike Neural Network，SNN）应运而生。这种网络以脉冲信号为载体，更接近人脑的运作方式。硬件方面，大型机构和公司研发相应的脉冲神经网络处理器。

早在 2008 年，DARPA 就发起计划──神经形态自适应塑胶可扩展电子系统（Systems of Neuromorphic Adaptive Plastic Scalable Electronics，简称 SyNAPSE，正好是“突触”之意），希望开发出低功耗的电子神经形态电脑。

IBM Research 成为 SyNAPSE 计划的合作方之一。2014 年发表论文展示最新成果──TrueNorth。这个类脑计算芯片拥有 100 万个神经元，能以每秒 30 帧的速度输入 400×240pixel 的影片，功耗仅 63 毫瓦，比范纽曼架构电脑有质的飞跃。

英特尔 2017 年展示名为 Loihi 的神经形态芯片，包含超过 20 亿个晶体管、13 万个人工神经元和 1.3 亿个突触，比一般训练系统所需的通用计算效率高 1 千倍。2020 年 3 月，研究人员甚至在 Loihi 做到嗅觉辨识。这成果可应用于诊断疾病、检测武器和爆炸物及立即发现麻醉剂、烟雾和一氧化碳气味等场景。

中国清华大学类脑计算研究中心的施路平教授团队，开发针对人工通用智慧的“天机”芯片，同时支持脉冲神经网络和深度神经网络。2019 年 8 月 1 日，天机成为中国第一款登上《Nature》杂志封面的芯片。

尽管已有零星研究成果，但总体来说，脉冲神经网络和处理器仍是研究领域的方向之一，没有在业界大规模应用，主要是因为基础算法还没有关键性突破，达不到业界标准，且成本较高。

（本文由品玩授权转载；首图来源：shutterstock）

软件吞噬硬件的 AI 时代，芯片跟不上算法的进化要怎么办？

更灵活

先进封装上位

另辟蹊径

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

"Metaphorical Fantasy: ReFantazio"latest new

"Persona 3 Reload".ON PC PS4

姐妹们 !我们村的咖啡馆老火了

库迪瑞幸价格战，小镇咖啡会受影响吗？

王者榮耀攻速暴擊流呂布銘文出裝

王者榮耀最強暴擊流李白怎麽出裝，暴擊流李白出裝銘文裝備推薦

王者榮耀國服夏洛特最強輸出流出裝連招銘文推薦

沒有2023年王者榮耀1月2日更新了什麽？最新改動具體內容

鬥羅大陸魂師對決千仞雪魂環搭配 sp千仞雪技能解析

鬥羅大陸魂師對決最強控製流陣容怎麽搭配？獨孤博阿銀控製流玩法

关于我们

新闻资讯

意见反馈

网站地图