DeepLab 是一种用于图像语义分割的顶尖深度学习模型,目标是将语义标签(如人、狗、猫等)分配给输入图像的每个画素。经过 3 年左右的发展,目前 DeepLab 具有下列功能。
- DeepLabv1:结合深度卷积神经网络,使用空洞卷积(atrous convolution)进行语义分割。
- DeepLabv2:基于 DeepLabv1 的最佳化,使用空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)对物体进行有效分割。
- DeepLabv3:采用多比例的带孔卷积级联或并行来捕获多尺度背景,基于图像特征最佳化 ASPP。
- DeepLabv3+:扩展 DeepLabv3,包括一个简单高效、改善分割结果的解码器模组。
目前来说,在图像语义分割,DeepLabv3+ 已是业界顶尖水准。就在近日,Google 宣布开源 DeepLabv3+,语义分割研究者的福利来啦。
以下编译整理相关讯息:
语意图像分割(Semantic Image Segmentation)是为图像中每个像素分配一个语义标签(如“路”、“天”、“人”、“狗”)的任务,能应用至新应用程序,例如基于 Pixel 2 和 Pixel 2 XL 智能手机肖像模式产生的浅景深效果、手机即时影片分割。分配这些语义标签需要精确定位物体的轮廓,因此比其他视觉实体辨识任务(例如图像分类或边框检测)有更严格的定位精准度要求。
今天,我们很高兴地宣布将 Google 目前最新的、性能最好的语义图像分割模型──DeepLab-v3+ 开源(在 TensorFlow 实现)。这次发表包含建造在一个强大的卷积神经网络(CNN)主干架构上的 DeepLab-v3+ 模型,用于服务器端部署。
此外,我们还公开了 Tensorflow 模型训练和评估代码,还有已经在 Pascal VOC 2012 和 Cityscapes 语义分割任务预先训练过的模型。
自从 3 年前研究出 DeepLab 模型,我们不断改进 CNN 的特征提取器,达成更好的对象尺度建模,吸收上下文讯息,改进训练程式,应用越来越强大的硬件和软件,这些使 DeepLab-v2 和 DeepLab-v3 不断改进。
使用 DeepLab-v3+ 时,我们可以透过添加一个简单但有效的解码器模组来扩展 Deeplabv3,进而改善分割结果,特别是用于对象边界检测时。我们进一步将深度可分离的卷积应用于空洞空间金字塔池化(atrous spatial pyramid pooling)和解码器模组,进而形成了一个用于语义分割的更快速、更强大的编─解码器网络。
基于卷积神经网络(CNNs)的现代语义图像分割系统已达到精确水准,这在 5 年前难以想像,这要归功于方法、硬件和资料集的发展。
我们希望与广大的研究社群分享我们的系统,这样一来,学术界和业界的团体能更容易地复制和改进现有系统,在新的资料集训练模型,并为这项技术设计新的应用。
- Semantic Image Segmentation with DeepLab in TensorFlow
(本文由 雷锋网 授权转载;首图来源:shutterstock)