微软研究人员创建了一个人工智能系统,这个系统能在 1980 年代风靡全球的电子游戏《Ms. Pac-Man》中获得最高分,系统使用分治策略来最大程度影响 AI 代理,完美地破关。
今年年初,微软收购了一家人工智能初创公司 Maluuba,Maluuba 公司团队运用强化学习技术(机器学习的分支),在《Ms. Pac-Man》Atari 2600 版本中表现完美。用这种方法,该团队在游戏中得到的分数高达 999,990。
位于加拿大蒙特利尔的麦吉尔大学(McGill University),从事电脑科学研究的 Doina Precup 副教授表示,AI 研究人员常常使用各种电子游戏来测试他们研发的系统,但研究人员发现《Ms. Pac-Man》是最难攻克的。
但是,Precup 表示,相比研究人员取得的成就,她对研究人员获得成果的过程更感兴趣。为了在《Ms. Pac-Man》中获得更高分数,Maluuba 公司团队将操控《Ms. Pac-Man》的大问题分解成若干个小问题,然后将小问题分发给 AI 代理解决。
Precup 说,“这个分治策略的想法让 Maluuba 公司的研究人员使用不同的系统来实现同一个目标,这是一件非常有趣的事”,她还说:“这个想法类似一些大脑如何工作的理论,最大程度影响 AI 代理教学,进而利用有限的资讯完成更复杂的任务。倘若能够完美利用分治策略,那人工智能将向前跨越一大步,这真的让人感到兴奋。”
Maluuba 团队将这种分治策略称之为混合式奖赏架构(Hybrid Reward Architecture),这个方法使用了 150 多名人工智能代理,每个代理与其他代理相互独立精通《Ms. Pac-Man》游戏。比如,一些代理成功找到一个豆子获得奖励,而另外一些代理由于幽灵必须待在原处。
然后,研究人员在《Ms. Pac-Man》中创建了一个最高代理,就像公司高级经理,最高代理能获得所有代理的建议,综合分析后由最高代理决定 Ms. Pac-Man 该如何移动。
最高代理会根据选择各个方向前进的代理数量的大小来决定移动方向,但同时也需要考虑到代理想要往某个方向移动的反应强度。例如,如果100 个代理想向右边移动,因为向右边走是最佳路径,但有 3 个想要向左边移动,因为右边有一个致命的幽灵,那这 3 个代理向左边移动的反应强度明显强于其他代理,考虑到幽灵的存在,顶级代理应该决定向左移动。
Maluuba 公司的研究室经理 Harman Van Seijen,将他们的最新研究成果发表成一篇文章,文章中写到,当每位代理都果断选择,最高代理综合利用每个代理的资讯后做最佳选择,那么在《Ms. Pac-Man》中就可获得最好的结果。Harman Van Seijen 说:“虽然每个代理只关心一个特定问题,但它们之间有很好的互动作用”。
▲ Harman Van Seijen。
为什么 AI 要研究破关《Ms. Pac-Man》
运用最先进的 AI 研究方法来击败 1980 年代 Atari《Ms. Pac-Man》这样的简单游戏,看上去很匪夷所思。但 Maluuba 公司的专案经理 Rahul Mehrotra 表示,使用算法赢得简单的电子游戏其实非常困难,因为玩游戏的过程中会遇到各种各样状况。
Mehrotra 表示:“许多从事人工智能的公司构建游戏智慧算法,因为公司希望人工智能像人类一样拥有玩游戏的技能。”
Steve Golson 是《Ms. Pac-Man》街机版创始人之一,他说《Ms. Pac-Man》最初定位是街机游戏,希望游戏对人有持续吸引力而走出宿舍,所以《Ms. Pac-Man》必须掌握人类不能完全征服的程式。
▲ Steve Golson。
营运咨询公司 Trilobyte Systems 的 Golson 说,他们故意设计《Ms. Pac-Man》比普通 Pac-Man 更不可预测,所以玩家很难破关。复杂的游戏使研究人员试图用 AI 代理反应随机环境。Golson 还说:“使用 AI 代理来通关《Ms. Pac-Man》是可行的,但游戏有随机性,需要设计的 AI 程式尤其复杂。”
强化学习
对不断发展的强化学习领域工作研究人员来说,这种不可预测性极有价值。在 AI 研究中,强化学习是监督学习的副本,是一种更常用的人工智能法,能让系统做任务时变得更好。
透过强化学习,代理对其每个动作都采取积极或消极反应,透过不断试验和犯错,最大限度地获得积极反应或奖赏。
具有监督学习的 AI 系统,透过良好和不恰当的示例,来学习如何在对话中适当回应。而强化学习系统则是透过系统在对话中正确回应,获得更高级别回馈的方式来学习对话。
AI 专家认为,强化学习可以用于创建 AI 代理,这样的代理更能决断,能完成更复杂的工作,为人们提供高水准的服务。Mehrotra 表示,他们开发的破关《Ms. Pac-Man》系统,就可为人们提供更好的服务。它可在特定时间或任意时间帮公司销售部门预测商品的潜在客户。该系统可以使用多个代理,每个代理代表一个客户,可预测很多重要因素,例如:哪些客户会续签合约,哪些合约对公司较有价值。
有了 AI 系统预测的帮助,销售主管可把更多时间放在潜在客户身上,如此会提高出售机会,因为销售人员的目光已瞄准最容易下单的客户。
Van Seijen 表示,他希望这种分治策略可用在 AI 其他研究领域,如自然语言处理。他还说:“分治策略使人们在解决真正复杂的问题上取得进步。”
- Divide and conquer: How Microsoft researchers used AI to master Ms. Pac-Man
(本文由 雷锋网 授权转载;首图来源:微软)