诞生于加州大学柏克莱分校的 RISC-V 开源指令集近来在中国关注度非常高。5 月,上海发表国内首个 RISC-V 支援政策。9 月,中国 RISC-V 产业联盟在上海成立。11 月,中国开放指令生态(RISC-V)联盟在乌镇宣布成立。有意思的是,中国最早做 RISC-V 的公司选择落脚深圳,并仅用 7 个月就设计出一款基于 RISC-V 指令集的 AI 芯片,能耗和面积明显优于同等级 ARM 架构芯片,更让行业吃惊的是该款芯片一次性流片成功。这是否意味着 ARM 在 AI 和 IoT 领域即将面临一场与新兴技术的硬战?
仅用 7 个月完成芯片研发的两大关键
仅用 7 个月就完成从零开始设计验证到交付流片全部研发工作的公司叫睿思芯科,是 2017 年美国硅谷新创 OURS 公司在深圳设立的中资公司,OURS 创始人兼 CEO 谭章熹在清华大学电子工程系获得学士学位,之后于加州大学柏克莱分校深造,师从新晋图灵奖得主 David Patterson,取得计算机科学博士。RISC-V 就出自 2017 年图灵奖得主 David Patterson 之手,这意味着谭章熹博士成了离 RISC-V 技术最近的中国人。
谭章熹接受雷锋网专访时表示:“说我们是中国最早做 RISC-V 指令集芯片的公司应该不会有争议,之所以把中资公司设在深圳,是因为我觉得无论从环境、文化还是人才的角度,深圳和我们最匹配。我们基于 RISC-V 指令集的 AI 芯片 Pygmy 仅用 7 个月,就完成从零开始设计到交付流片。”
谭章熹提到的 Pygmy AI 芯片并没有隆重的发表会,首次亮相是在 11 月初 Patterson 教授于乌镇世界网络大会的演讲,Pygmy 也在大会期间展出。据了解,Pygmy 是全世界最小的鹦鹉。谭章熹透露,睿思芯科的第二代架构叫 Pocket,是世上第二小的鹦鹉。不难发现,睿思芯科的架构和产品都以鸟种类命名,但新一代产品命名使用的鸟体型比上一代大,谭章熹希望公司产品能涵盖越来越多市场空间。
▲ 谭章熹和老师 David Patterson。
睿思芯科的产品命名很有特色,但更引人关注的是其如何在 7 个月内完成全部研发工作。谭章熹表示:“之所以能在不到一年完成全部研发工作,很关键的因素就是 RISC-V 指令集。我们知道微处理器的设计很难,因为软件和硬件接口的地方很多,比如 OS、SW framework、模拟器等,不过我们依靠 RISC-V 的生态,开发工具、工具链等帮助我们缩短芯片的校验时间。另一个关键因素,就是我们有经验丰富的工程师,对 RISC-V 更深的理解及知道设计芯片的关键,对缩短芯片研发的时间也非常重要。”
到底是架构重要,还是经验丰富的工程师更重要?谭章熹表示两者同等重要,当然睿思芯科的芯片量产也会有必要的周期。他同时指出,想在 7 个月内完成芯片的全部设计工作并不容易,除了需对指令集有深刻理解及有经验丰富的工程师明白如何做芯片业非常关键,软件也非常关键。特别对 AI 而言,AI 算法不断演进,对芯片算力和内存的要求也会不断提升,因此芯片需要具备快速更新的能力,此时架构和软件都将发挥关键作用。
能耗和面积明显优于同等级 ARM 架构芯片
时间上 Pygmy 仅用 7 个月就完成全部研发工作,芯片性能却很强,根据睿思芯科的说法,Pygmy 比同等级 ARM 芯片,能耗下降 85%、面积减少 80%,相当于用一般 32 位元处理器的面积和功耗,就达到 64 位元处理器的性能。具体来看,Pygmy 基于 64 位元 RISC-V 指令集,使用台积电 28 奈米制程,采用多核异构架构,其中 CPU 架构是睿思芯科基于 RISC-V 指令集设计,并针对多种 AI 应用最佳化,还有 12 个高度可编程 AI 加速引擎,同样基于睿思芯科自定义开发的 RISC-V 矢量扩展指令集设计。
性能方面,Pygmy 主控 CPU 有 64 位元位宽,主频 600 MHz,基于 RV64G 指令集,支援双精度浮点运算,具备乘法器、除法器、开方器等;12 个 AI 内核均为高度可编程,可以支援各种主流 AI 算法。能耗方面,主控 CPU 功耗仅为 10mW,透过前端/后段的全栈设计,待机设计功耗不超过 1mW。且 Pygmy 在 Int8 时可实现 4 TOPS/watt,对比 Google 第一代 28 奈米 TPU 92 TOPs 超过 40 watt,差不多 2.3 TOPS/watt。另外,提供 Pygmy 芯片的同时,睿思芯科还开发了编译器、SDK、工具链,基于 GCC、LLVM 等开源实现,可支援 Pygmy 用户二次开发。
▲ Pygmy 芯片。
需指出的是,虽然上面提到 Pygmy 比同等级 ARM 芯片能耗和面积有超过 80% 下降,但因为目前没有 ARM 芯片与 Pygmy 完全类似,因此比较的是 Pygmy 主控 CPU。那么,Pygmy 到底是如何实现低功耗和高效能?谭章熹表示:“最主要的还是因为 RISC-V 架构的精髓──简单、面积小、速度快。因此我们不仅架构创新,也可把芯片做得简单高效,刚开始设计 Pygmy 时,也没想到能得到这么好的成绩。”
除了架构不需由复杂向下精简,架构创新也很重要。Pygmy 采用多核异构,谭章熹表示:“通用的 CPU 也能处理 AI 任务,但效率不高,这时候就需要有特殊核心和架构来满足 AI 的需求。Pygmy 除了有主控 CPU 还有 12 个高度可编程的 AI 加速引擎,主要针对神经网络及 CNN 算法最佳化,支援 AI 图像和语音应用。之所以整合 12 个可编程 AI 加速引擎,和芯片面积有很大的关系。当然 12 个加速引擎只代表一个边界,根据不同应用的性能及功耗需求,可配置数量不同的可编程 AI 加速引擎,且团队能在 3 个月内就完成 AI 加速引擎核客制。未来,我们还会推出整合更多 AI 加速引擎的产品。”需要指出,异构架构会让芯片编程复杂性增高。
另外,AI 芯片选择支援的数据类型也非常重要,因为目前哪种数据类型最适合深度学习还没有定论。据悉,Pygmy 之所以支援 Int8 和 FP16 两种数据类型,一方面是出于芯片模组性能和功耗的表现,支援这两种数据类型时,在终端推理表现良好;另一方面是用户需求,因为除了芯片,相应的软件及应用也需要支援对应的数据类型。
还有,AI 芯片消耗能量更多数据搬运而非计算,因此如何减少数据搬运及数据类型的支援,对 AI 芯片的设计者而言,也是必须考虑的问题。可以看到的是,Pygmy 搭载 1MB 的 SRAM 支援 LPDDR4、SPI、UART 等数据输入输出模式,但对如何减少数据搬运的耗能,谭章熹透露,睿思芯科有比较独特的技术,主要是考虑架构设计,另外就是透过软件控制而非传统的硬件管理。
当然,无论传统芯片还是 AI 芯片,除了性能、功耗以及面积,成本也至关重要。谭章熹表示,之所以选择 28 奈米制程而非更先进的制程,是因为先进制程的提升成本越来越高,但性能提升却有限,综合来看 28 奈米对睿思芯科而言性价比最高。
ARM 在 IoT 领域遭遇来自 RISC-V 的挑战?
既然 Pygmy 整体表现优于 ARM 同等级芯片,Pygmy 也面向各种物联网终端的 AI 推理场景。同时我们还看到,国外 GreenWaves,中国中天微系统、君正集成电路、华米推出基于 RISC-V 指令集的芯片,都对准物联网市场,这是否意味着 RISC-V 指令集芯片在 IoT 领域已势不可挡?
谭章熹表示:“RISC-V 整个软件生态与 ARM 的生态还有一定距离,ARM 也有一定的技术优势,这不是短期建立的。不过我乐观地认为 RISC-V 缩小与 ARM 生态之间的差距,要比 ARM 赶上 x86 所需的时间更短。至于与 ARM 的竞争,手机芯片领域 RISC-V 的机会不大,但我们看到 AI 以及 IoT,在新兴领域 RISC-V 有非常大的机会。因为在 IoT 市场,有非常多差异化需求,且每个地区和市场还可能有特殊需求,因此在这市场大公司有竞争优势,小公司也有优势。”
(Source:睿思芯科)
更具体地说,对于新兴应用,RISC-V 指令集的芯片更灵活,小公司更能满足这些应用的需求,这在很大程度上与 ARM 形成竞争。至于已在 ARM 投入很多且从中获益的公司,竞争对手及成本可能是选择 RISC-V 的关键因素。据了解,包括 Google、辉达、高通、AMD、IBM、华为等巨头都已加入 RISC-V 基金会,有一些 ARM 用户开始接触 RISC-V 一两年,一旦有其中一家公司推出能效和成本更低的 RISC-V 芯片,竞争对手也会迅速跟进,这对 RISC-V 指令集不仅是种认可,也有利于 RISC-V 与 ARM 竞争。
睿思芯科到底会选择哪些 AIoT 应用切入市场,谭章熹并没有透露。但他表示,睿思芯科的业务模式不仅提供客制化芯片或模组,也会基于已有产品做垂直服务,提供客制化解决方案。被问到是否会进入热闹的安防市场时,他表示,对安防市场保持关注,要进入这个市场一定会是战略合作伙伴的方式,且会找到特定的应用角度切入,而非常见的监控镜头。
谭章熹也表示,即便是新的 IoT 和 AI 市场,RISC-V 想占优势,也并非一家企业可做到,而是要一个完整的系统,这需要 5 年甚至 10 年,但他非常有信心。对于目前的 RISC-V 市场,还没有到要彼此激烈竞争的阶段,更应该共同把生态做大。仅组建联盟而没有拿出实际产品,也不是发展和壮大 RISC-V 的好方式,更应该拿出实际产品及实质合作,进一步贡献 RISC-V 生态。
小结
谭章熹认为 RISC-V 的精髓在精简、面积更小、速记更快,基于 RISC-V 指令集可设计出更好的芯片,授权费、便宜在灵活性和开放面前显得不是那么重要。而他对 RISC-V 的理解及芯片领域的积累,让他和团队能在 7 个月内就完成一款芯片的全部研发工作。当然,无论美国 OURS 还是深圳睿思芯科,文化及做事方式都充满不少硅谷作风。
ARM 在手机领域的地位难以撼动,但在 AIoT 领域,ARM 显然已感受到来自 RISC-V 阵营的竞争,并保持警戒。因此 AIoT 领域到底是 RISC-V 能占据优势还是 ARM,只能让时间解答。毕竟从历史经验来看,一项技术成功除了技术本身,还关系到非常多因素。
(本文由 雷锋网 授权转载;首图来源:shutterstock)
延伸阅读:
- 让 ARM 感到压力的开源指令集 RISC-V,彼此间不一定要分高下决生死