AI 将长颈鹿图片转成鸟，还骗过人类与机器 04月04日更新

当人们研究人工智能生成和检测图像的方式时，都需要确定研究主题。近期康乃尔大学 3 位研究人员 Daniel V. Ruiz、Gabriel Salomon、Eduardo Todt 决定训练人工智能，将长颈鹿的图片转成鸟的图片，用生成对抗网络（GANs）产生新数据研究这种图像转换图像（image-to-image translation）。这篇论文在 Computer on the Beach（COTB ’20）2020 会议现身。

目前图像转图像的应用较广泛，包括从卫星图像生成地图到仅从轮廓生成完整的服装图。这篇论文研究将长颈鹿转为鸟其实颇具挑战性，因两种动物大小、纹理和形态都不同。他们训练名为 InstaGAN 的无监督跨域转换模型，喂给 AI 大量长颈鹿和鸟的图片训练。

InstaGAN 由韩国科学技术院和浦项科技大学的研究人员 2019 年提出，相关论文《InstaGAN: Instance-Aware Image-to-Image Translation》还为 ICLR2019 接受。

最后鸟类成品保留原始图片的布局和背景，只是将长颈鹿直接转成鸟。需要强调的是，生成的鸟并不存在，仅是 InstaGAN 生成的结果。

这次论文的创新点，用作者自己的话说就是，“我们这次没有把苹果变成橘子，而是把大象变成香蕉”。因为之前无监督图像转图像，例子大多是将站着的狮子转成趴着、将猫转为狗、马变成斑马等，但这些训练的比例、形状都很相似，所以难度有差异。

到底这次是怎么做的呢？

用于训练 GAN 和生成相关的图像有两个数据集：COCO（Common objects in Context）和 Caltech-UCSD Birds 200。COCO 数据集有超过 91 种类的 328,000 张图片，研究者选了 2,546 张和 101 张长颈鹿图片分别用于训练和验证，又从另一个涵盖 200 多种鸟类的数据集 Caltech-UCSD Birds 200-2011，选择 80% 也就是 9,414 张图片用于训练，20% 就是 374 张用于验证。

每张图片都能看到长颈鹿和鸟的轮廓。AI 主要工作有两块，一是把长颈鹿变成鸟，另一部分是判断图片是真的鸟还是假的长颈鹿─鸟。

接下来开始训练。大多数参数与 InstaGAN 初始论文一样。透过双线性插值（bilinear interpolation）将长颈鹿和鸟数据集的图像大小调整为 256×256 ，GPU 训练花费将近 3 周（如果用 2 个 NVIDIA RTX 2080 GPU，时间能减少到一周半）。

InstaGAN 训练使用的 loss functions 包括：Least-squares GAN loss、cycle loss、context loss 和identity loss，根据最终结果的重要性加权。cycle loss 权重最高，LSGAN 也是如此，因为改善了收敛性，减少可能消失的梯度问题（vanishing gradient issues），这需要超过 100 个 epoch 达成良好的视觉效果和损失最小化。

3 周训练结束后，得到人造鸟图集 FakeSet，下图显示图像转图像的一些例子。

可看到原始图像和蒙版，以及转换之后的图像和蒙版，姿势、空间排列和背景没有改变。也就是说，InstaGAN 已完整学会了转换图像，长颈鹿几乎没有遮挡，都是侧身站立，而相同位置如今也产生鸟类。有意思的是，InstaGAN 学到有趣的“欺骗”法──生成深色鸟，与浅色背景形成对比，如此更能骗过人类、机器辨识者。

接下来让我们来看看 InstaGAN 生成的图。

有些转换效果令人印象深刻。InstaGAN 学会如何模糊顶端背景，看起来像微距镜头，即使过渡之处并不是十分滑顺，一只长颈鹿的肩膀还在，但 AI 巧妙处理成一块石头，希望你不会注意。

背景模糊效果还不错，处理前景时，InstaGAN 造出一根木头当鸟的栖息点，并突出树枝、岩石裂缝等细节，也模糊附近的鸟脚，效果较自然。但有几张图片还能隐约看到长颈鹿的肚子和腿，于是 InstaGAN 处理成绿色，可能是希望人错认成叶子之类的植物。

当然很多时候转换效果并不好。由于可能受特别背景的影响，人工智能没有成功改变图像。这里也很明显，人工智能移除长颈鹿的一般策略是，将鸟的身体复制黏贴到长颈鹿的头、脖子和肩膀部分，然后尽力隐藏长颈鹿的腿。如果以先知角度看上图，你会立刻发现长颈鹿的大长腿还在，模型多次失败都与难以掩盖的长颈鹿腿有关。

为了评估生成图像的真实性和品质，研究者进行定性和定量分析。定性分析是，随机挑选 FakeSet 335 张评估图片，标准是转换品质、轮廓和纹理几项，选项只有两个──“Good”或“Bad”。每个属性的最终分数是 335 张图片的平均分，用 0~1 分表示（ 0 表示品质差，1 表示品质好）。如果一个属性的值为 0.75，意味着四分之三图片在该属性表现良好，四分之一图片表现不佳。细节见下表。

为了定量分析，他们使用预先训练好的 Mask R-CNN（Mask Region-based Convolutional Neural Network）新生成的数据集 FakeSet，分析 2,546 张图片，评估结果是，289 幅图片是垃圾（甚至没有检测到有鸟存在），717 幅不令人满意（常用指标 F-score 低于 0.8 ），1,540 幅令人满意。F-score 遵循偏斜的正态分布，倾向最佳分数。

论文的结论是，FakeSet 做到了接近真实数据集的检测和分割结果，虽然大多数图像并不完全真实，但是正确转化率也很高，检测和分割结果也高度可信的（高于 80%）。这说明生成的图够逼真，不论肉眼难以察觉，也经得起最先进的深层神经网络检验。

（本文由雷锋网授权转载；首图来源：pixabay）

AI 将长颈鹿图片转成鸟，还骗过人类与机器

延伸阅读：

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

"Metaphorical Fantasy: ReFantazio"latest new

"Persona 3 Reload".ON PC PS4

姐妹们 !我们村的咖啡馆老火了

库迪瑞幸价格战，小镇咖啡会受影响吗？

王者榮耀攻速暴擊流呂布銘文出裝

王者榮耀最強暴擊流李白怎麽出裝，暴擊流李白出裝銘文裝備推薦

王者榮耀國服夏洛特最強輸出流出裝連招銘文推薦

沒有2023年王者榮耀1月2日更新了什麽？最新改動具體內容

鬥羅大陸魂師對決千仞雪魂環搭配 sp千仞雪技能解析

鬥羅大陸魂師對決最強控製流陣容怎麽搭配？獨孤博阿銀控製流玩法

关于我们

新闻资讯

意见反馈

网站地图