基于深度学习的电脑视觉模型已是许多应用不可或缺的一环,而模型的性能又取决于像 Open Images 这样、越来越大的标记训练数据库的可用性,如何获得高质量的训练内容已成为电脑视觉模型发展的重要焦点。
对需要执行语义分割(Semantic Segmentation)等像素层面预测任务的应用来说,高质量的训练内容又更关键,像是自动驾驶、机器人或图片搜寻都是属于相关应用。
传统的手动标签工具使用,需要一个标注者(annotator)仔细点击图片中每个对象的边界、分类出图片所有类别,过程不仅繁琐还相当耗时,在 COCO+Stuff 数据库光是标记单个图片就需要 19 分钟,标记整个数据集估计需要花费 53,000 个小时。
为了让整个过程更简易迅速,Google AI 团队开发了一种基于机器学习技术的界面,能协助标注者更快标记图片中对象和背景的类别及轮廓,进而将数据库训练内容的创建速度提高 3 倍。
这项功能称为“流体标注”(Fluid Annotation)。在强大的语义分割模型的协助下,标注者能够选择要纠正的内容和顺序,更有效率的将精力集中在机器未知的内容,进行更快又简单的调整修改。
为了提供使用者图片注释的协助,团队先使用预先训练的语义分割模型 Mask-RCNN 来辨识图片,并使其产生约 1,000 个图片边界、标签与可信度分数。
流体标注便会使用最高可信度的内容,来作为最初呈现给注释者的标签。而在那之后,使用者还是可以透过以下 4 种操作进行调整修改:
- 从机器产生的待选清单中选择现有的标签
- 增加一个分割内容来覆盖机器错过的对象
- 删除现有的对象
- 改变重叠对象的边界顺序
Google 团队表示,流体标注是 Google 为了提高图片注释效率的第一项探索。未来会朝向改进边界注释的判定努力,期望最后能使机器扩展到能处理以前看不见的分类,来协助达成更有效的数据收集。
流体标注的研究内容将会在近期举办的 ACMMM2018 会议中展示,如果你对这项功能有兴趣,也可以前往 Google 提供的 Demo 网站试用(只能用电脑开启)。
- Fluid Annotation: An Exploratory Machine Learning–Powered Interface for Faster Image Annotation
(首图来源:Google AI Blog)