2013 年 DeepMind Technologies 发表一篇突破性论文,展示神经网络如何透过观看屏幕来学习玩 1980 年代的电子游戏,几个月后 Google 以 4 亿美元收购该公司,DeepMind 开始应用深度学习,甚至在 AlphaGo 游戏中胜过人类,但同时也突显深度机器学习速度太慢的局限性,使得科学家开始探究人类学习事物的秘诀。
麻省理工科技评论(MIT Technology Review)报导指出,加州大学柏克莱分校研究团队探讨人类与影音游戏互动方式,了解人类依靠什么样的先验知识来理解游戏。研究发现,当人类开始新游戏时会使用大量背景知识,让游戏更好下手,但若把游戏重新设计,打破先验知识,人类就会陷入困境。而机器在两个游戏上皆以完全相同的方式执行。
研究人员在亚马逊的众包网站 Mechanical Turk 征求 40 人玩一款基于经典游戏设计的 Montezuma’s Revenge 小游戏,研究人员没有提供操作手册与说明,参与者在完全不知道游戏怎么玩的情况下进行,研究发现参与者完成游戏约需 1 分钟时间,做出大约 3 千次键盘操作,但算法却使用 400 万个键盘动作才完成游戏,相当连续玩游戏约 37 个小时。
研究人员表示,这并不令人意外,因为人类很容易猜到游戏的目标是要踩着砖状物体,并使用梯子到达更高的平台,同时避免生气的粉红色和火焰物体,将机器人精灵移往公主。相比之下,游戏对机器来说很难,许多标准的深度学习算法根本无法解决问题,由于只有完成游戏时才有反馈,因此算法无法评估游戏内容。
研究人员归功于人们的先验知识,即知道某些物体是好的,而其他物体,譬如游戏中有皱眉或火焰是坏的,平台支撑物体,梯子可以爬升,看起来相同的东西的行为方式相同,重力将物体拉下,判断物件是什么东西等。但机器对这些毫无所知。
研究人员重新设计游戏,选择纹理来掩盖梯子、敌人、钥匙、平台等各种形式的先验知识,并且改变游戏的物理属性,比如重力的影响,以及角色与环境交互的方式。让这些先前知识无关紧要,然后测量人类完成游戏需要多长时间。
结果发现删除一些先前知识会导致人类玩家解决游戏的速度急剧下降,完成游戏时间从 1 分钟增加到超过 20 分钟,而删除这些讯息对机器算法学习速度没有影响。
研究人员甚至可以改变项目设计,观察玩游戏的时间变化,时间增加愈多代表相应的先前知识愈重要。譬如去除对象符号,如皱眉或火焰符号,参与者则需要花费更长的时间才能完成。但使用纹理掩盖物件表面,游戏会变得更困难,研究人员不得不将酬劳提高,参与者才愿意玩下去。
这个排名与人类学习方式有一个有趣的联系。心理学家发现,在婴儿 2 个月大的时候拥有一种原始的物体概念,但还无法辨识种类。3~5 个月大的婴儿学会辨识物体种类,18~24 个月学会辨识个别物体,以及学习物体属性,而人类先验知识的重要性排序也跟婴儿相同。
这份实验价值在于量化人类在解决影音游戏时使用各种知识的重要性,并理解先前的知识如何使人类善于处理复杂任务,为电脑科学家开发机器智慧提供一条有趣的途径。利用人类从小就接受的相同基础知识来设计算法,这样机器应该能够赶上人类的学习速度,甚至可能超过人类。
- Why humans learn faster than AI – for now
(首图来源:Flickr/Rebecca Hildreth CC BY 2.0)