最近,AI 系统已学会一系列游戏玩法,如雅达利经典游戏《Breakout》和《乓》(Pong)。尽管令人印象深刻,但其实人工智能需要数千小时的游戏时间才能达到并超越人类玩家。相比之下,我们可在几分钟内掌握以前从未玩过的游戏基础操作。DeepMind 研究了这个问题,论文《Prefrontal cortex as a meta-reinforcement learning system》发表在《自然》神经科学子刊。随着论文发表,DeepMind 也写了一篇解读文章,介绍论文主要内容,以下编译供读者参考。
什么是学习?
人类只接受这么少的资讯就能做这么多事,这项能力牵扯到学习理论,或叫“学会学习”。我们日常的学习有两个时间尺度,短期学习专注于学习具体的例子,长期学习中,我们通常要学会抽象的规律和技巧来完成工作。我们之所以能高效学习及灵活快速应用各种知识,正是因为这两种学习组合。AI 系统重现这种学习架构或叫强化学习,对达到快速、一次性学习有卓越成效(详见 OpenAI 的论文及工作)。但学习过程具体的机制,在神经科学依旧是未解之谜。
Jane Wang 团队新发表在《自然》神经科学子刊的论文,在 AI 研究使用强化学习架构来探究大脑多巴胺在人类学习过程的作用。多巴胺通常认为是大脑的愉悦讯号,也经常认为类似 AI 强化学习算法的奖励函数。这些 AI 系统就是在奖励指导下反复试验。他们认为多巴胺的作用不仅当作奖励来评估过去行为的价值,在前额叶皮质区也发挥不可或缺的作用,使人类能有效快速及灵活地学习新工作。
引入神经科学
他们透过虚拟重建神经科学领域的 6 个学习实验来测试理论。每个实验都需要一个代理程式来执行基本原则(技能)相同,但在某些维度不同的工作。他们先使用标准深度强化学习技术(代表多巴胺的作用)训练一个递回神经网络(代表前额叶皮质),然后再比较递回网络的活动动态与以前神经科学实验真实资料的异同。递回网络是学习的优秀代理程式,因它们能内化过去的行为和观察,然后训练其他工作时借鉴这些经验。
类似 1940 年代的心理学测试:Harlow 实验,他们重新建立了一个实验来探索学习的概念。最初的 Harlow 实验中,一组猴子面前有两种物品可选,其中一个是食物奖励,实验人员将这两个物品一左一右在猴子面前展示 6 次,每次左右位置都是随机,所以猴子必须知道哪个物品可带来食物奖励。然后研究人员又展示另外两个物品,依旧只有一个会有食物奖励。这次训练过程,猴子学会一种策略来选择奖励关联物品:第一次随机选择,然后基于奖励回馈选择特定物品,并不在乎物品放在左边还是右边。实验表明,猴子可领悟工作的基本原理,并学会抽象的规则架构,这其实就是学会学习。
当 Jane Wang 团队使用虚拟电脑屏幕和随机选择的影像模拟非常相似的测试时,他们发现强化学习代理程式的学习方式就像 Harlow 实验的猴子,即使换新影像代理程式也能像猴子很快适应。
(Source:DeepMind)
事实上,他们发现强化学习代理程式学会如何快速适应不同规则和架构的工作,且在学会适应各种工作的过程中,还学会了提高学习效率的通用方法。
学习与神经科学互相指导
重要的是,大多数学习都产生在递回网络,这为他们的看法提供了有力支撑,即多巴胺在学习过程扮演超越以往认知的更重要角色。多巴胺可透过加强前额系统的突触联系来增强特定行为。在 AI 系统,这意味着神经网络的类多巴胺奖励讯号可以调整人工突触权重,使系统学到解决工作的正确方法。然而 Jane Wang 团队的实验,神经网络的权重被冻结了,这意味着权重在学习过程无法调整,然而,强化学习代理程式仍然能解决并适应新工作。这表明类多巴胺奖励不仅用于调整权重,还传达和编码了抽象工作和规则架构的重要资讯,进而使系统更快适应新工作。
神经科学家很早就观察到类似的前额叶皮质神经触发型态,他们发现这种型态适应性强且很灵活,之后他们一直努力搜寻这种现象的原因。其中一种看法是前额叶皮质不依赖缓慢的突触权重变化来学习规则架构,而是透过直接由多巴胺编码、基于抽象模型的资讯来学习规则架构,这更能解释多巴胺的功能多样性。
为了证明强化学习的关键成分也存在大脑里,Jane Wang 团队提出一种理论,不仅与多巴胺和前额皮质的理论相符,且还可解释一系列神经科学和心理学的神秘发现。该理论重点揭示了大脑基于模型的架构化学习如何出现,为什么多巴胺含有基于模型的资讯,以及前额叶皮质的神经元如何根据学习讯号调整。人工智能的洞察力可用来解释神经科学和心理学的发现,也提升了每个领域研究成果的价值。展望未来,他们在设计新强化学习模型时,可从具体的大脑回路组织获得灵感,神经科学与 AI 相得益彰。
- PREFRONTAL CORTEX AS A META-REINFORCEMENT LEARNING SYSTEM
- Prefrontal cortex as a meta-reinforcement learning system
(本文由 雷锋网 授权转载;首图来源:Flickr/affen ajlfe CC BY 2.0)