游戏向来都是开发者喜欢用来进行深度强化学习、训练人工智能的工具,从棋类到复杂的战略游戏都有。不过 Google 最近采用的学习方式,却是使用经典的乒乓游戏 Pong 来训练人工智能。
Google 最近公开的论文《Atari 模式为本强化学习》(Model-Based Reinforcement Learning for Atari),就提到称为 SimPLe 的模拟策略学习算法,使用游戏模式来学习选择行为的策略。科学家表示,总括而言 SimPLe 是要代替学习游戏行为的世界模型,以及使用该模型在模拟游戏环境改善策略(无模型强化学习)。算法背后的基本原理已确立好,并应用在最近不少基于模型的强化学习方法。
Google 使用 Pong 和 Freeway 两个简单的游戏,在 2 小时游戏时间的实验中,采用 SimPLe 策略的代理成功达到最高分,虽然最终表现仍未达到标准的强化学习方式,但训练效率可提升 1 倍,未来也能进一步提升准确度,以节省人工智能的训练所需时间,以及模拟互动的成本。
- Google researchers improve reinforcement learning by having their AI play Pong
(本文由 Unwire Pro 授权转载;首图来源:Unsplash)