1 月 30 日,宾州匹兹堡 Rivers 赌场,耗时 20 天的德州扑克人机大战尘埃落定。卡内基美隆大学(CMU)开发的 AI 程式 Libratus 击败人类顶级职业玩家,赢得 20 万美元奖金。尽管之前 Google DeepMind 的 AlphaGo 在与李世乭的五局围棋大战,以及网络上跟顶级围棋选手的 60 局快棋大战中出尽了风头,但德州扑克对 AI 却是更大的挑战,因为 AI 只能看到游戏部分资讯,游戏并不存在单一最优下法。那么 CMU 的 Libratus 是如何击败人类顶级职业玩家?《Wired》杂志这篇文章为我们揭密。
在几乎 3 星期时间里,Dong Kim 都待在匹兹堡一个赌场内跟一台机器玩扑克,但 Kim 不是普通的扑克玩家,跟他对战的也不是普通机器,这场比赛更不是普通的扑克游戏。
28 岁的 Kim 是全世界最强的扑克玩家之一。那台由卡内基美隆大学两位电脑科学研究人员开发的机器,是一套在匹兹堡一台超级电脑里执行的人工智能系统。在整整 20 天内,他们都在玩无限制德州扑克比赛,这是一种尤其复杂的扑克游戏形式,其投注策略往往经过很多手。
这场比赛刚结束不久。大概赛程过半的时候,Kim 开始觉得 Libratus 好像能看到他的牌。不过他说:“我不是指它作弊,而是说它有那么强。”实际上强到击败 Kim 及其他 3 名顶级人类玩家──这是人工智能的第一次。
在比赛期间,Libratus 的创造者对这套系统的运作方式遮遮掩掩,大家不清楚它如何取得成功,如何以其他机器前所未有的方式模仿人类直觉。但结果证明,Libratus 能达到如此高度是因为它不仅是 AI。
Libratus 依靠 3 套不同系统的协作,这提醒我们现代 AI 并不是由一项而是多项技术驱动。这段时间以来深度神经网络抓住大多人的注意,当然这也有很好的理由:它们为一些全球最大型的技术公司从影像辨识到翻译,乃至搜索引擎等一切提供了动力。但神经网络的成功也为其他辅助机器模仿甚至超越人类天才的 AI 技术注入了新生命。
比方说,Libratus 就没有使用神经网络,它主要靠强化学习,这是人工智能的一种,一种强调除错的方法,其实就是自己跟自己大量玩游戏。Google DeepMind 实验室利用强化学习来开发 AlphaGo,这套系统攻克围棋的时间比预期早了 10 年,但这两套系统之间有一个关键点不同。AlphaGo 是透过分析人类玩家的 3,000 万份棋谱来学习的,然后才自己跟自己下棋来改进技能。相对而言,Libratus 是从零开始学。
透过一种名为“反事实遗憾最小化”(counterfactual regret minimization)的算法,它先随机玩,然后经过几个月训练和玩了上兆手扑克后,它也到达能挑战人类最强玩家的高度,不仅如此,它的玩法是人类无法做到的──它下注的范围大得多,且会随机下赌注,这样对手就更难猜到自己手上有什么牌。与指导教授 Tuomas Sandholm 一起开发这套系统的 CMU 研究生 Noam Brown 说:“我们只是向 AI 说明这个游戏,但没告诉它怎么玩。它完全独立于人的玩法形成自己的策略,而且它的玩法跟人类玩法非常不一样。”
这只是第一阶段。在匹兹堡比赛期间,第二套系统会分析游戏状态并聚焦第一套系统的注意力。这套系统属于一种“残局解算器”(end-game solver),上周 Sandholm 和 Brown 发表的论文详细说明了细节。在第二套系统的帮助下,第一套系统再也不需要像过去那样跑完所有可能的场景,它可以只试探其中一些场景。也就是说,Libratus 不仅在比赛前学习,而且还能在比赛中学到东西。
光靠这两套系统就已经很有效率了,但 Kim 等其他玩家仍能够找出机器玩法的一些型态然后设法加以利用。为此,Brown 和 Sandholm 开发了第三套系统。每天晚上 Brown 都会跑一个算法来辨识那些型态然后从策略中剔除。他说:“一个晚上它就能计算完然后次日备妥一切。”
如果这看来不公平,但 AI 就是这么强。这不仅表示 AI 跨越了许多技术,人类往往也频繁加入,积极地改进 AI、跑 AI 或增强 AI。Libratus 的确是个里程碑,展示一种新型 AI,从华尔街交易到网络安全乃至拍卖和政治谈判,这种 AI 都可以扮演特定的角色。曾帮助 Google 设立 AI 实验室,现为百度首席科学家的吴恩达说:“扑克曾是 AI 最难攻克的游戏之一,因为你只能看到部分资讯,扑克并没有单一最优下法。相反地,AI 玩家必须让自己的行动随机化,这样它唬骗时对方才无法确定真假。”
Libratus 把这点做到极致:它的下注非常随机化,甚至超过人类最强玩家的水准,如果这个方法不奏效,Brown 晚上跑的算法会弥补不足。金融市场交易员也可以采取相同做法,外交官亦然。这是一个强大且相当令人不安的想法:机器可以用豪赌吓退人类。
- Inside Libratus, the Poker AI That Out-Bluffed the Best Humans
(本文由 36Kr 授权转载,首图来源:Flickr/Kat CC BY 2.0)
延伸阅读:
- 人脑的最后一役,人工智能赢了德州扑克玩家
- AI 工程师也可能失业?AI 也开始自学写 AI 软件了
- 西北大学新系统在智力测试中超越 75% 美国人,人类的推理能力也不及 AI 了?
- 【年末回顾】2016 年 6 个最酷的人工智能系统