AI 运算需要什么？ Intel：当然是强悍的处理器 04月18日更新

Intel 先前推出 Xeon Scalable 系列服务器专用处理器，包含白金、黄金、银、铜等不同等级产品，取代先前 E7、E5、E3 命名方式，并能带来高于前代产品 1.73 倍的综合效能表现，在深度学习方面更有 2.2 倍的效能表现，相当适合用于人工智能领域，Intel 也说明了人工智能的效能需求与一般运算有何不同。

AI 在做什么

最近 AI（人工智能）的发展有爆炸性成长，如影像辨识、语音辨识、自然语言处理等需求，都可以透过 AI 处理。而深度学习也是 AI 技术的其中一环，它是种执行机器学习的技术，能将大量数据输入机器，并透过算法分析数据，让机器从中学习判断或预测事物的能力。

以影像辨识为例，输入的影像会经过许多称为“层”的数学运算过程，每“层”运算都能让系统分析影像的特征，当第一“层”运算完成后，就会将分析结果传到下一“层”，如此迭代运算直到最后一“层”。

在运算过成中，系统内的类神精网络（Neural Network）会透过正向传播算法（Forward Propagation）学习图像的特征与计算权重，并透过反向传播算法（Backward Propagation）比对输入资料与演算误差，修正错误。

在深度学习中，输入的图像通常是一组数量庞大的图库，并以平行处理方式同时进行大量运算，使用者可在训练过程调校参数，提高训练的准确度与速度。当训练完成后，我们就能利用 AI 进行图像分类，让 AI 自动将图像分类或是加上标签（Tag）。这个动作称为深度学习推论（Deep Learning Inference），是相当重要的效能指标。

▲ 深度学习领域的类神经网络，是模仿生物大脑结构和功能的数学模型。

Xeon Scalable 处理器冲着 AI 而来

了解深度学习的概念后，就可以开始看看 Intel 如何强化 Xeon Scalable 处理器的效能，来提升深度学习的效率。

类神精网络运作时的折积运算基本上就是矩阵相乘，因此能以每秒进行的单精度通用矩阵乘法（Single Precision General Matrix Multiply，SGEMM）或通用矩阵乘法（Integer General Matrix Multiply，IGEMM）运算次数，来评估处理器的效能表现。相较 Broadwell 世代 Xeon 处理器，Xeon Platinum 8180 能带来 2.3 倍 SGEMM 效能，以及 3.4 倍 INT8 IGEMM4 效能，有效提升深度学习效率。

此外 Xeon Scalable 也支援 AVX-512 指令集，能同时进行两组 512 bit 融合乘加（Fused-Multiply Add，FMA）运算，吞吐量是 AVX、AVX2 的两倍，根据 Intel 内部测试，在同一个处理器开启 AVX-512，可带来 1.65 倍效能提升。

另一方面，由于深度学习仰赖庞大的资料，所以内存存取能力也是效能表现的重要关键。每颗 Xeon Scalable 都支援 6 通道 DDR4 内存，以及新的网状架构（Mesh Architecture），STREAM Triad 效能测试中，内存带宽高达 211GB/s，此外大容量的快取内存也对效能有正面助益。

除了硬件方面，Intel 也以开源形式提供深度神精网络（Deep Neural Networks）运算用的函数库，方便使用者利用 Neon、TensorFlow、Caffe、theano、torch 等软件框架开发 AI 程式，透过软件最佳化的方式进一步提升效能。

虽然我们这种一般使用者不会直接使用 Xeon Scalable 处理器，但仍可使用许多与 AI 相关的多云端服务，因此还是能间接享受 Xeon Scalable 的强悍效能。