DeepMind 新研究：让机器自学理解图像意义，不再依赖人为标签资料辨识 04月09日更新

近日，DeepMind 一篇部落格文章提到一种新的人工智能体，可推断数字、角色和人像的构造方式，更关键的是，它们是自己学会做这件事，而不是靠人工标记的资料集。

真实世界并不仅是我们眼里反映的图像。例如，当我们看到建筑物并欣赏其设计之美时，我们也欣赏所需的技术。这种思维方式可使我们对世界有更丰富的理解，也是人类智慧的重要体现之一。

DeepMind 研究员希望系统也能创造出同样丰富的世界表现形式。例如，观察绘画图像时，希望系统能了解用于创建绘画的笔触，而不仅是表现在屏幕上的画素。

在这项工作中，研究员为人造智慧体（agents）配备了人类用来生成图像相同的工具，并证明它们可以推断数字、人物和肖像的构造方式。更关键的是，它们是自学如何做到这一点，而不是透过人为标签的资料集。这与最近的一项研究“A Neural Representation of Sketch Drawings”提到的依赖从人类经验学习的方式恰恰相反。依赖人类经验的学习通常很耗时。

研究员设计了一个可与计算机绘画程序互动的深度强化学习智慧体，将笔触放在数位画布上并更改画笔大小、压力和颜色，未经训练的智慧体画笔很随意，并没有明显的意图或结构。为了克服这点，研究员需要创建一种奖励方式，鼓励 agents 生成有意义的图片。

为此，研究员训练了第二个神经网络，称之为鉴别器。它唯一目的是预测特定图形是由 agents 制作的，还是从真实照片的资料集中采样的。agents 的奖励是透过“欺骗”鉴别者认为它的绘画是真实的。换句话说，agents 的奖励信号本身就是学习的。虽然这与生成对抗网络（GAN）中使用的方法类似，但并不相同。因为 GAN 网络设置中的生成器通常是直接输出像素的神经网络。而这里的agents 是透过编写图形程式与绘图环境互动来生成图像。

在第一组实验中，agents 透过训练生成类似于 MNIST 数字的图像：它显示了数字的样子，但没有显示它们是如何绘制的。透过尝试生成欺骗鉴别器的图像，agents 学会控制画笔，并操纵它以适应不同数字的风格，这是一种称为可视化程式合成的技术。

研究员也训练它重现特定图像的能力。在这里，鉴别器的目的是确定再现图像是否是目标图像的副本，或者是否由 agents 产生。鉴别器越难区分，agents 得到的奖励就越多。

最重要的是，这个框架也是可以解释的，因为它产生了一系列控制模拟画笔的动作。这意味着该模型可以将其在模拟绘图程式中学到的知识，应用到其他类似环境中的字元重建中，例如用在仿造的或真实的机械手臂上。

还有可能将这个框架扩展到真实的资料集。agents 经过训练可以绘制名人脸部表情，能够捕捉到脸部的主要特征，例如形状、色调和发型，就像街头艺术家在使用有限数量的画笔描绘肖像时一样：

（Source：DeepMind）

从原始感受中提取讯息结构化表示，是人类很容易拥有并经常使用的能力。在这项工作中，研究员表明可以透过让智慧体获得和人类重现世界的相同工具，来指导智慧体产生类似的表示。在这样做时，它们学会制作可视化程式，简洁地表达因果关系，提升了它们的观察力。尽管该工作目前仅代表了向灵活的程式合成迈出一小步，但预计需要类似的技术才能使智慧体具有类似人的认知，包括归纳概括和沟通交流等能力。

Learning to write programs that generate images

（本文由雷锋网授权转载；首图来源：shutterstock）

DeepMind 新研究：让机器自学理解图像意义，不再依赖人为标签资料辨识

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图