欢迎光临GGAMen游戏资讯




AI 将长颈鹿图片转成鸟,还骗过人类与机器

2025-01-12 218


当人们研究人工智能生成和检测图像的方式时,都需要确定研究主题。近期康乃尔大学 3 位研究人员 Daniel V. Ruiz、Gabriel Salomon、Eduardo Todt 决定训练人工智能,将长颈鹿的图片转成鸟的图片,用生成对抗网络(GANs)产生新数据研究这种图像转换图像(image-to-image translation)。这篇论文在 Computer on the Beach(COTB ’20)2020 会议现身。

目前图像转图像的应用较广泛,包括从卫星图像生成地图到仅从轮廓生成完整的服装图。这篇论文研究将长颈鹿转为鸟其实颇具挑战性,因两种动物大小、纹理和形态都不同。他们训练名为 InstaGAN 的无监督跨域转换模型,喂给 AI 大量长颈鹿和鸟的图片训练。

InstaGAN 由韩国科学技术院和浦项科技大学的研究人员 2019 年提出,相关论文《InstaGAN: Instance-Aware Image-to-Image Translation》还为 ICLR2019 接受。

最后鸟类成品保留原始图片的布局和背景,只是将长颈鹿直接转成鸟。需要强调的是,生成的鸟并不存在,仅是 InstaGAN 生成的结果。

这次论文的创新点,用作者自己的话说就是,“我们这次没有把苹果变成橘子,而是把大象变成香蕉”。因为之前无监督图像转图像,例子大多是将站着的狮子转成趴着、将猫转为狗、马变成斑马等,但这些训练的比例、形状都很相似,所以难度有差异。

到底这次是怎么做的呢?

用于训练 GAN 和生成相关的图像有两个数据集:COCO(Common objects in Context)和 Caltech-UCSD Birds 200。COCO 数据集有超过 91 种类的 328,000 张图片,研究者选了 2,546 张和 101 张长颈鹿图片分别用于训练和验证,又从另一个涵盖 200 多种鸟类的数据集 Caltech-UCSD Birds 200-2011,选择 80% 也就是 9,414 张图片用于训练,20% 就是 374 张用于验证。

每张图片都能看到长颈鹿和鸟的轮廓。AI 主要工作有两块,一是把长颈鹿变成鸟,另一部分是判断图片是真的鸟还是假的长颈鹿─鸟。

接下来开始训练。大多数参数与 InstaGAN 初始论文一样。透过双线性插值(bilinear interpolation)将长颈鹿和鸟数据集的图像大小调整为 256×256 ,GPU 训练花费将近 3 周(如果用 2 个 NVIDIA RTX 2080 GPU,时间能减少到一周半)。

InstaGAN 训练使用的 loss functions 包括:Least-squares GAN loss、cycle loss、context loss 和identity loss,根据最终结果的重要性加权。cycle loss 权重最高,LSGAN 也是如此,因为改善了收敛性,减少可能消失的梯度问题(vanishing gradient issues),这需要超过 100 个 epoch 达成良好的视觉效果和损失最小化。

3 周训练结束后,得到人造鸟图集 FakeSet,下图显示图像转图像的一些例子。

可看到原始图像和蒙版,以及转换之后的图像和蒙版,姿势、空间排列和背景没有改变。也就是说,InstaGAN 已完整学会了转换图像,长颈鹿几乎没有遮挡,都是侧身站立,而相同位置如今也产生鸟类。有意思的是,InstaGAN 学到有趣的“欺骗”法──生成深色鸟,与浅色背景形成对比,如此更能骗过人类、机器辨识者。

接下来让我们来看看 InstaGAN 生成的图。

有些转换效果令人印象深刻。InstaGAN 学会如何模糊顶端背景,看起来像微距镜头,即使过渡之处并不是十分滑顺,一只长颈鹿的肩膀还在,但 AI 巧妙处理成一块石头,希望你不会注意。

背景模糊效果还不错,处理前景时,InstaGAN 造出一根木头当鸟的栖息点,并突出树枝、岩石裂缝等细节,也模糊附近的鸟脚,效果较自然。但有几张图片还能隐约看到长颈鹿的肚子和腿,于是 InstaGAN 处理成绿色,可能是希望人错认成叶子之类的植物。

当然很多时候转换效果并不好。由于可能受特别背景的影响,人工智能没有成功改变图像。这里也很明显,人工智能移除长颈鹿的一般策略是,将鸟的身体复制黏贴到长颈鹿的头、脖子和肩膀部分,然后尽力隐藏长颈鹿的腿。如果以先知角度看上图,你会立刻发现长颈鹿的大长腿还在,模型多次失败都与难以掩盖的长颈鹿腿有关。

为了评估生成图像的真实性和品质,研究者进行定性和定量分析。定性分析是,随机挑选 FakeSet 335 张评估图片,标准是转换品质、轮廓和纹理几项,选项只有两个──“Good”或“Bad”。每个属性的最终分数是 335 张图片的平均分,用 0~1 分表示( 0 表示品质差,1 表示品质好)。如果一个属性的值为 0.75,意味着四分之三图片在该属性表现良好,四分之一图片表现不佳。细节见下表。

为了定量分析,他们使用预先训练好的 Mask R-CNN(Mask Region-based Convolutional Neural Network)新生成的数据集 FakeSet,分析 2,546 张图片,评估结果是,289 幅图片是垃圾(甚至没有检测到有鸟存在),717 幅不令人满意(常用指标 F-score 低于 0.8 ),1,540 幅令人满意。F-score 遵循偏斜的正态分布,倾向最佳分数。

论文的结论是,FakeSet 做到了接近真实数据集的检测和分割结果,虽然大多数图像并不完全真实,但是正确转化率也很高,检测和分割结果也高度可信的(高于 80%)。这说明生成的图够逼真,不论肉眼难以察觉,也经得起最先进的深层神经网络检验。

(本文由 雷锋网 授权转载;首图来源:pixabay)

延伸阅读:

  • AI 换脸只是小儿科,这家公司直接用 AI 假造了 4 个工程师
  • 日本团队开发作弊侦测 AI,协助考官即时发现作弊行为
  • 网络性骚扰太烦人,AI 辨识图片是不是解方?
  • Google 图片辨识 AI 工具将不再标记男女
  • 看过蒙娜丽莎开口说话吗?三星开发新 AI 模型,只需几张图片便能造假成动态影片
2020-04-04 20:26:00

标签:   游戏头条 资讯头条 ggamen科技资讯 ggamen科技 ggamen科技资讯头条 科技资讯头条 ggamen游戏财经 新闻网 科技新闻网 科技新闻 ggamen ggamen游戏新闻网 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技资讯头条 ggamen科技 ggamen科技资讯 资讯头条 游戏头条 ggamen ggamen游戏新闻网 科技新闻 科技新闻网 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技资讯 资讯头条 游戏头条
0