Facebook 人工智能研究院的研究员 Dhruv Batra 和 Devi Parikh 共同撰写,介绍 Facebook 关于自主智慧体的最新研究成果──目标驱动自主学习──近日公开,并宣布开源 EmbodiedQA 和 House3D 资料集,以下根据原文编译供读者参考。
大多数能与人类互动的自主智慧体(Autonomous agents)都有一些共同点:它们并不是那么自给自足(Self-sufficient)。如智慧喇叭(Smart speaker)虽然可以透过语音界面与人类交流并采取一些动作(如订购产品),但它却无法感知周围环境。另一方面,割草机器人虽然具备动作(割草)和感知(透过感测器)能力,但除了不断闪灯或传送错误资讯,还无法达成与主人自由交流。
如果不同时具备 3 个重要的关键因素──感知、沟通和动作,那么自主智慧体就无法成为全面助理,而这其中的空白代沟还需要人类弥补。这个问题对目前的智慧体来说似乎并不是什么大毛病,如 Roomba 机器人如果不通知你有把椅子阻碍它的清洁路线,这只是一点小困难而不是什么大灾难。但为了让下一代智慧体融入并改变我们的生活,自主系统需要更自给自足。
训练人工智能系统时要扔下婴儿车
为了给帮对人类微观管理依赖程度较低且更具通用性的系统铺平道路,Facebook 人工智能研究院(FAIR)开发了一系列用于训练和测试自主智慧体的虚拟环境,以及能学习智慧探索环境的新型智慧体。这些智慧体将用做模拟机器人,是 Facebook 与乔治亚理工学院的研究员合作建立。使用虚拟智慧体和虚拟环境比起将真实机器人送到现有的室内场所要来得有效率,因为这需要花费数千台机器来符合基于 AI 训练的执行速度。Facebook F8 会议关于透过 AI 提高内容可存取性的主题演讲,简单介绍过这项工作。
FAIR 的目标是指导系统根据长期计划采取多种动作,同时还要努力完成给定的工作。为了取得成功,这些智慧体必须在环境中行动,综合使用感知、导航和沟通能力搜寻问题的答案,然后使用简单自然的语言传达这些答案。对 AI 来说,这是极具挑战性的问题,一旦达成,就是朝着自治迈出了一步,并且该智慧体的适应性也将足以在非架构化的人造世界发挥作用。
为了测试这种目标导向(Goal-driven)方法,FAIR 和乔治亚理工学院联合提出一个多步骤 AI 工作,称为“具体化问答”(Embodied Question Answering)或“EmbodiedQA”。与聊天机器人或智慧喇叭相比,此智慧体必须在物理环境(尽管是虚拟环境)学习和执行,因此称为“具体化的”(Embodied)。当智慧体被问及单一问题时,例如“车子是什么颜色?”或“我的钥匙在哪个房间?”智慧体必须能理解书面语言,然后用第一人称相机感知周围环境,探索 3D 的室内环境直到找到答案。且为了使智慧体自主性更完善,还将透过自然语言的方式回复该答案以完成使命。
▲ FAIR 提出一项新的 AI 工作──具体化问答(Embodied Question Answering)。图为一 3D 环境的某个随机位置产生一个智慧体,并给它一个问题(车是什么颜色),为了回答这个问题,智慧体必须借助智慧导航以探索环境,透过第一人称(以自我为中心)视觉收集资讯,然后回答问题(橙色)。
FAIR 相信这些是第一个要求 AI 系统综合展示感知、交流和动作以达成目标的实验。将完全自主(智慧体在没有人类启动和干预的情况下做到自主活动)和不熟悉的环境结合,增加工作的挑战性。智慧体要在随机的、数以百计的不同楼层平面图(每个平面都是仿照现实家庭建模)执行,且不具该环境中实践执行过的增益,也不曾在类似地图执行。更难的是,为了回答问题,智慧体必须行动,因为问题里的物品也许无法立即看到。
工作中学习
为了训练和评估这些智慧体,所需的虚拟环境不仅具备互动功能,还要具备多样化和数量充足的特徴,以避免智慧体在相同环境反复执行,这对自主智慧体的发展而言是更巨大的挑战。FAIR 的解决方案称为 House3D,是由 45,000 个手动建立的模拟室内环境组成。House3D 是基于普林斯顿大学的 SUNCG 资料集建立,但 House3D 为一完全可导航的位置集合(Fully navigable set of locations),使智慧体能同时探索数千个房间,这比在现实生活空间训练有复杂机械架构的机器人要快得多。它也使我们可进行重复性的科学实验,且 House3D 还开源,目前可在 GitHub 取得。
为了在 House3D 中每次都能进行独特的寻宝活动,智慧体必须在完成工作的过程中学习一系列核心能力──从辨识室内物体(沙发、椅子等)到理解问题。
第一种习得的能力是主动感知(Active perception),或是智慧控制前面像素的能力,因为一开始目标物品不太可能刚好位于智慧体的视线范围(影像透过 224×224 解析度的 RGB 模拟镜头采集)。因此,智慧体不是被动感知问题提及的物品(固定影像资料集中就是如此),而是透过探索周围环境,主动找到目标物品。
这项研究的创新点在于做到导航的模组化,该方法将导航工作划分成两部分。规划者(Planner)负责选择行动方向,例如向左行动,控制器(Controller)则负责确定在该方向需要移动多远。这种策略避免智慧体在行动前建立长远又详细的路径规划,因为这样做会导致更多错误和更弱的适应性。此外规划者─控制器(Planner-Controller)这套设定也更适合强化学习,智慧体将根据积极或消极回馈来动态调整导航。
▲ FAIR 的智慧体将导航工作分解为一个规划者(PLNR)模组和一个控制器(CTRL)模组。规划者从卷积神经网络(CNN)获得汇入,然后决定要采取的动作,同时控制器决定继续执行该动作的时间步变数──进而达成方向和速度之间的解耦合。这使规划者能在更短时间内作业更有效,进而减轻训练难度。
下一步,智慧体必须学会常识推理,然后在一个新的但并非完全陌生的环境发挥作用。尽管人们可能知道车库往往位于房屋周围,因此可以透过对外门进出,但 AI 系统却需要自己学习这些知识。随着在不同的模拟家庭成功达到目标,智慧体必须发展出常识,以缩短搜寻指定物件然后回答相关问题花费的时间。
常识积累的后续阶段,智慧体还要学习语言基础,或者是学习如何把单词(比如针对物件的说明)与特定动作连结。例如,当为了找到可能位于车库的汽车而搜索车库时,智慧体不会被迫检视每个可能的空间,直到它找到与车库对应的一组像素为止。恰恰相反,智慧体使用“车库”为行动指令,然后直接找到对外门,更高效地定位目标。
最后,因为 FAIR 的目标是超越繁琐、逐步的人为监督,从微弱和远期的目标驱动奖励中学习,所以智慧体必须学会的最重要能力之一是“功劳分配”(Credit assignment),这意味着智慧体能知道自己一路上所做的行为哪些正确哪些错误。如询问“多少个房间里有椅子?”然后智慧体并没有被明确告知需要检查每个房间,甚至没有被告知要从家中含椅子的区域开始计算。智慧体能凭自己的力量探索和回答问题,而不需要借助人类提供的详细逐步计划。因此,从它是否正确回答的微弱讯号来看,必须自行学习数百项相互依赖的行动中哪项导致成功。为了增强传统的强化学习,FAIR 使用模仿学习(Imitation learning,比对智慧体的运动与到达目标的可能最短路径)和奖励塑造(Reward shaping,透过“变得更近”和“变得更远”讯号随时间变化而改进智慧体的表现),允许智慧体把真正使命拼凑起来,即便该使命开始时并不清楚。
让自主系统更自主
经过训练的 EmbodiedQA 智慧体与标准串列模型基准(一个 LSTM 导航器)相比,表现相当合理。
▲ 影片比较 FAIR 开发的智慧体(名称为 ACT+Q-RL)与基准效能表现(名称为 LSTM+Q)。
和 House3D 一样,FAIR 收集的 EmbodiedQA 资料将开源,旨在启发更广泛的 AI 研究社群的其他项目。为了给其他研究人员提供完整的背景,FAIR 将人类带入这个方程式。FAIR 和乔治亚理工学院比较自主智慧体导航与问答的能力与远端遥控智慧体,这些远端遥控智慧体由人类(透过亚马逊 Mechanical Turk 平台)操控,进而建立专家等级的基准导航范例。由此产生的资料集包括与 750 个独特、多房间的环境相关的合成产生问题(Synthetically generated questions)。智慧体(和人类)准确性的故障以及我们使用的问答生成引擎,也将成为 EQA v1 开源版中的一部分,该版本不久就可取得。
虽然 EmbodiedQA 是只涵盖一种目标驱动的自主工作,但却代表人工智能的高难度(因为它将各种的子工作合并成一个工作),并有机会探索采取“行动”的新学习范例,这是成功的先决条件。无法做决策的智慧体──在这种情况下,透过在现实家庭导航,确定它们收集到相关资料,然后传达它们发现的内容──在实验中无法完成工作。
这种挑战很艰钜,因为至关重要。短期内目标驱动的算法可使用自动化改善 AR 和 VR 体验,为可用界面选项添加直觉的语音互动。但这种基于行为的目标驱动方法,长期影响可能会延伸到自主性。从数位助理可根据单一指令(如不仅可预约医生,还可重新安排冲突的会议)执行一系列家务事,到灾难回应机器人遵循来自第一回应者的简单语音指令,这种适应性的自动化,可能会对我们的生活产生重大影响。
- Embodied Question Answering: A goal-driven approach to autonomous agents
(本文由 雷锋网 授权转载;首图来源:shutterstock)