长期关注半导体产业及处理器技术的最新发展,不可能不知道以下 4 场历史悠久、与 IEEE(电子电机工程学会)息息相关的 4 场研讨会。
- Hot Chips:介绍最新型高效能芯片,目前第 29 届,厂商彼此较劲、技术行销意味浓厚的简报大赛活动,时间选在炎炎夏日,的确颇符合“Hot Chips”的抬头。
- Cool Chips:介绍最新型“低功耗,高效能”芯片(所以连 IBM 和 Fujitsu“自己觉得没那么耗电”的 Power9 与 SPARC64 XII 都登场了),目前第 20 届,商业味道比较没那么重,主要在日本横滨举办,众多日本厂商和学术机构一同共襄盛举,包含明年 4 月的第 21 届。
- ISSCC(国际固态电路学会):从 1953 年至今,发表先进固态电路与系统单芯片的全球论坛,提供工程师独特的机会,在先进 IC 设计工作的领域进行交流,论文清单也可经常见到台湾企业与学校的身影。
- IEDM(国际电子元件会议):始自 1955 年,发表半导体、电子元件技术、设计、制造、物理与模型等领域中的技术突破,动辄劳驾总统行政院长褒扬的台湾半导体相关人士,多半与在 IEDM 发表重大研究成果有关。近年越来越多关于新世代非挥发性储存内存的相关论文,都在此发表。
其中相对“平易近人”的 Hot Chips,堪称是处理器业界现况与趋势的风向球。
Hot Chips 29 的趋势:人工智能满天下
- 相较于 2016 年的 Hot Chips 28,“人工智能概念股”完全爆炸性的成长,而各类型“人工智能芯片”,从 GPU、超级多核 CPU、FPGA、专用芯片,甚至吸引众人目光的 Google TPU,均倾巢而出。
- 拜自驾车风潮之所赐,自动驾驶相关技术也是变得异常热门。
- 以可程式化为首的 FPGA 也要开始“包山包海”,要能接无线网络,也要提供高带宽内存。但更重要的是,微软、Amazon 和百度高谈他们是怎样利用 FPGA 加速运算。
- 传统服务器处理器的玩家还是那几个,但这次 Qualcomm 杀进来了。
- P4 编程语言的实用化,象征着软件定义网络(SDN)应用的深化。
- 做为网络设备心脏的高阶网络处理器,规格还是一如往常的暴力。
Hot Chips 也按照惯例,在 12 月中对未参加者,开放下载完整的议程简报和线上视讯,所以特此简述今年 Hot Chips 的重点,如读者想进一步了解细节,可自行阅读网站上提供的丰富文件,外行看热闹,内行看门道,以下依序简介重点。
Keynote(主题演讲):还是聚焦在人工智能。
- The Direct Human / Machine Interface and hints of a General Artificial Intelligence(Wiseteachers.com)
- Recent Advances in Artificial Intelligence via Machine Learning and the Implications for Computer System Design(Google)
Tutorial(特别议程):SDN(软件定义网络)应用的“P4”封包编程语言的实用化,资料中心网络管理或 ISP 从业人士相信特别有感。
Background on Software Defined Networking (Netronome)
重点:SDN 也需要资料阶层的封包处理编程语言。
P4 Language and Applications(Barefoot Networks、Xilinx)
重点:独立于通讯协定之外的交换器架构。
Overview of the P4 tools(Cisco)
重点:Cisco 教你怎么撰写 P4 程式。
P4 Hardware Implementations(硬件实做)
- Tofino Chip Architecture(Barefoot Networks)
- 重点:对应 P4 的交换器芯片。
- The p4c-sdnet Compiler(Xilinx)
- 重点:对应 P4 的 FPGA 编译器。
- Network Flow Processor and Agilio SmartNICs(Netronome)
- 可处理 P4 的 120 核心网络处理器芯片。
Future Directions: Research Problems, Getting Involved, and Resources(Cisco)
重点:P4 生态圈誓师大会。
Tutorial(特别议程):nVidia 大谈自动驾驶顺便推销芯片。
An Overview of NVIDIAs Autonomous Vehicles Platform(NVIDIA)
重点:94% 的交通事故都是三宝等人为因素,所以大家就不要自己开车吧。
Deep Neural Networks Autonomous Vehicle Landscape(NVIDIA)
重点:从后端深度学习一路到前端车用系统,请大家爱用 nVidia 的芯片。
GPU and Gaming:nVidia“Volta”大战 AMD“Vega10”,然后 AMD 再度昭告天下通吃游戏机市场。
AMD’s Radeon Next Generation GPU(AMD)
重点:AMD Vega 很强很厉害,不过只和自己前代比。
NVIDIA’s Volta GPU: Programmability and Performance for GPU Computing(nVidia)
重点:nVidia 终于在比较正式的场合,公开了大量技术细节,包含 SM 内的运算单元结构。
The Xbox One X Scorpio Engine(Microsoft)
重点:新世代 Xbox One 各方面的性能都是前代的好几倍,但跟系出同源的 PS4 越来越像。
IOT / Embedded:计算机结构大师 Patterson 创造的 RISC-V 再度登上舞台,只是可能没太多人记得。
SiFive Freedom SoCs: Industry’s First Open-Source RISC-V Chips(SiFive)
重点:RISC 指令集的上古神兽,然后很多东西都不会收你钱。
Self-timed ARM M3 Microcontroller for Energy Harvested Applications(ETA Compute)
重点:要到处乱洒并不倚赖电池为动力的微控制器,时脉一定是高不起来的。
Processors:大家就拚命加速深度学习和资料处理吧。
XPU: A programmable FPGA Accelerator for diverse workloads(百度)
重点:连百度都在设法用 FPGA 加速其实际的“业务”,“反观”台湾。
Knights Mil: Intel Xeon Phi Processor for Machine Learning(Intel)
重点:Intel 新款 Xeon Phi 针对深度学习,最佳化低精度运算的效能。
Celerity: An Open Source RISC-V Tiered Accelerator Fabric(密歇根大学)
重点:用大量的通用 RISC-V 核心,堆叠出适合不同运算的多核心架构。
Graph Streaming Processor(GSP)A Next-Generation Computing Architecture(ThinCI)
重点:追求 Task Graph 工作平行化的运算架构。
Automotive:继续谈自动驾驶。
R-Car Gen3: Computing Platform for Autonomous Driving Era(Renesas)
重点:瑞萨的新型自动驾驶运算平台,与未来迈向 Level 4 的简略时程。
Localization for Next Generation Autonomous Vehicles(Swift Navigation)
重点:自驾车的导航系统,也需要配合不同的应用环境“在地化”。
FPGA:这年头的可程式化逻辑阵列要能包山包海。
Xilinx RFSoC: Monolithic Integration of RF Data Converters with All Programmable SoC in 16nm FinFET for Digital-RF Communications(Xilinx)
重点:FPGA 要做无线应用,也需要整合 RF 资料转换器。
Stratix 10: Intel’s 14nm Heterogeneous FPGA System-in-Package(SiP)Platform(Altera / Intel)
重点:Intel 继续宣传“高级胶水技术”EMIB 在 FGPA 的优势。
Xilinx 16nm Datacenter Device Family with In-Package HBM and CCIX Interconnect(Xilinx)
重点:这年头不只 GPU,连 FPGA 都需要整合 HBM 因应高带宽需求,世道真的不同了。
FPGA Accelerated Computing Using AWS F1 Instances(Amazon)
重点:不只百度,连 Amazon 也引进 FGPA 加速运算了。
Neural Net:类神经网络与深度学习真的很热闹。
A Dataflow Processing Chip for Training Deep Neural Networks(Wave Computing)
重点:针对深度学习而量身订做的资料流处理芯片,顺便“暗示”当下 CPU 加上 GPU 的问题。
Accelerating Persistent Neural Networks at Datacenter Scale(Microsoft)
重点:微软终于告诉大家,他们是怎如何在资料中心使用 FPGA 加速深度学习了。
DNN ENGINE: A 16nm Sub-uJ Deep Neural Network Inference Accelerator for the Embedded Masses(哈佛大学/ARM)
重点:哈佛大学研究的深度学习最佳化芯片微架构。
DNPU: An Energy-Efficient Deep Neural Network Processor with On-Chip Stereo Matching(韩国科学技术院)
重点:连韩国的研究机构也在自行打造深度学习芯片了。
Evaluation of the Tensor Processing Unit: A Deep Neural Network Accelerator for the Datacenter(Google)
重点:各位,欢呼吧,Google 公布 TPU 架构细节啦。
Architecture:Cisco 的恐龙化网络处理器与 ARM 继续炒作动态处理器分配技术。
A 400Gbps Multi-Core Network Processor(Cisco)
重点:Cisco 新一代 672 核心网络处理器。
ARM DynamIQ: Intelligent Solutions using Cluster Based Multi-Processing(ARM)
重点:ARM 介绍 DynamIQ 的细节。
Server:IBM、Intel、AMD 大乱斗,加上 Qualcomm 插一脚。
The Next Generation IBM Z Systems Processor(IBM)
重点:源自 S/360 的 IBM 大型主机,到现在还活得好好的,还是蓝色巨人真正的金鸡母,地球上“服务器”的万王之王。
The Next Generation AMD Enterprise Server Product Architecture(AMD)
重点:EPYC 的多芯片封装,制造成本不到单芯片设计的六成。
The New Intel Xeon Processor Scalable Family(Formerly Skylake-SP)(Intel)
重点:感觉是有点为了宣传而宣传,勉为其难的介绍产品阶层很像直销组织的 Skylake-SP。
Qualcomm Centriq 2400 Processor(Qualcomm)
重点:Qualcomm 终于投入 ARM 服务器市场,而且还是“纯 64 位元”微架构。
会场的海报:连做硬盘的厂商都要告诉大家他们想在未来的 SSD 做啥好事,不过就请届时下载慢慢看吧。
Using Texture Compression Hardware for Neural Network Inference(乔治亚理工/ARM)
重点:类神经网络的推论工作也需要材质压缩。
SoundTracing: Real-time Sound Propagation Hardware Accelerator(世宗大学)
重点:为了 AR 应用,透过硬件加速的声音追踪技术。
A Memory-Efficient Persistent Key-value Store on eNVM SSDs(Western Digital)
重点:减少未来新型 SSD 的 KVS(Key Value Store)控制器的 CPU 与内存消耗。
Accelerating Big Data Workloads with FPGAs(Bigstream)
重点:将 FPGA 应用于大数据处理。
Loom: A Precision Exploiting Neural Network Accelerator(多伦多大学)
重点:“探寻权重与激活值精度以加速卷积神经网络”的人工智能芯片。
EPIPHANY-V: A TFLOPS scale 16nm 1024-core 64-bit RISC Array Processor(Adapteva)
重点:美国国防部高等研究计划署(DARPA)加持的 1024 核心 RISC 处理器,有点吓人。
Fully-Integrated Surround Vision and Mirror Replacement SoC for ADAS/Automated Driving(TI)
重点:TI 针对自驾车周围视野与后照镜的方案。
GRVI Phalanx On Xilinx Virtex UltraScale+: A 1680-core, 26 MB RISC-V FPGA Parallel Processor Overlay(Gray Research LLC)
重点:1,680 核心看起来好像很恐怖。
(首图来源:影片截图)