Intel 先前推出 Xeon Scalable 系列服务器专用处理器,包含白金、黄金、银、铜等不同等级产品,取代先前 E7、E5、E3 命名方式,并能带来高于前代产品 1.73 倍的综合效能表现,在深度学习方面更有 2.2 倍的效能表现,相当适合用于人工智能领域,Intel 也说明了人工智能的效能需求与一般运算有何不同。
AI 在做什么
最近 AI(人工智能)的发展有爆炸性成长,如影像辨识、语音辨识、自然语言处理等需求,都可以透过 AI 处理。而深度学习也是 AI 技术的其中一环,它是种执行机器学习的技术,能将大量数据输入机器,并透过算法分析数据,让机器从中学习判断或预测事物的能力。
以影像辨识为例,输入的影像会经过许多称为“层”的数学运算过程,每“层”运算都能让系统分析影像的特征,当第一“层”运算完成后,就会将分析结果传到下一“层”,如此迭代运算直到最后一“层”。
在运算过成中,系统内的类神精网络(Neural Network)会透过正向传播算法(Forward Propagation)学习图像的特征与计算权重,并透过反向传播算法(Backward Propagation)比对输入资料与演算误差,修正错误。
在深度学习中,输入的图像通常是一组数量庞大的图库,并以平行处理方式同时进行大量运算,使用者可在训练过程调校参数,提高训练的准确度与速度。当训练完成后,我们就能利用 AI 进行图像分类,让 AI 自动将图像分类或是加上标签(Tag)。这个动作称为深度学习推论(Deep Learning Inference),是相当重要的效能指标。
Xeon Scalable 处理器冲着 AI 而来
了解深度学习的概念后,就可以开始看看 Intel 如何强化 Xeon Scalable 处理器的效能,来提升深度学习的效率。
类神精网络运作时的折积运算基本上就是矩阵相乘,因此能以每秒进行的单精度通用矩阵乘法(Single Precision General Matrix Multiply,SGEMM)或通用矩阵乘法(Integer General Matrix Multiply,IGEMM)运算次数,来评估处理器的效能表现。相较 Broadwell 世代 Xeon 处理器,Xeon Platinum 8180 能带来 2.3 倍 SGEMM 效能,以及 3.4 倍 INT8 IGEMM4 效能,有效提升深度学习效率。
此外 Xeon Scalable 也支援 AVX-512 指令集,能同时进行两组 512 bit 融合乘加(Fused-Multiply Add,FMA)运算,吞吐量是 AVX、AVX2 的两倍,根据 Intel 内部测试,在同一个处理器开启 AVX-512,可带来 1.65 倍效能提升。
另一方面,由于深度学习仰赖庞大的资料,所以内存存取能力也是效能表现的重要关键。每颗 Xeon Scalable 都支援 6 通道 DDR4 内存,以及新的网状架构(Mesh Architecture),STREAM Triad 效能测试中,内存带宽高达 211GB/s,此外大容量的快取内存也对效能有正面助益。
除了硬件方面,Intel 也以开源形式提供深度神精网络(Deep Neural Networks)运算用的函数库,方便使用者利用 Neon、TensorFlow、Caffe、theano、torch 等软件框架开发 AI 程式,透过软件最佳化的方式进一步提升效能。
虽然我们这种一般使用者不会直接使用 Xeon Scalable 处理器,但仍可使用许多与 AI 相关的多云端服务,因此还是能间接享受 Xeon Scalable 的强悍效能。
(本文由 T客邦 授权转载;首图来源:Intel)