人工智能 Libratus 如何击败顶级德州扑克玩家？ 04月28日更新

1 月 30 日，宾州匹兹堡 Rivers 赌场，耗时 20 天的德州扑克人机大战尘埃落定。卡内基美隆大学（CMU）开发的 AI 程式 Libratus 击败人类顶级职业玩家，赢得 20 万美元奖金。尽管之前 Google DeepMind 的 AlphaGo 在与李世乭的五局围棋大战，以及网络上跟顶级围棋选手的 60 局快棋大战中出尽了风头，但德州扑克对 AI 却是更大的挑战，因为 AI 只能看到游戏部分资讯，游戏并不存在单一最优下法。那么 CMU 的 Libratus 是如何击败人类顶级职业玩家？《Wired》杂志这篇文章为我们揭密。

在几乎 3 星期时间里，Dong Kim 都待在匹兹堡一个赌场内跟一台机器玩扑克，但 Kim 不是普通的扑克玩家，跟他对战的也不是普通机器，这场比赛更不是普通的扑克游戏。

28 岁的 Kim 是全世界最强的扑克玩家之一。那台由卡内基美隆大学两位电脑科学研究人员开发的机器，是一套在匹兹堡一台超级电脑里执行的人工智能系统。在整整 20 天内，他们都在玩无限制德州扑克比赛，这是一种尤其复杂的扑克游戏形式，其投注策略往往经过很多手。

这场比赛刚结束不久。大概赛程过半的时候，Kim 开始觉得 Libratus 好像能看到他的牌。不过他说：“我不是指它作弊，而是说它有那么强。”实际上强到击败 Kim 及其他 3 名顶级人类玩家──这是人工智能的第一次。

在比赛期间，Libratus 的创造者对这套系统的运作方式遮遮掩掩，大家不清楚它如何取得成功，如何以其他机器前所未有的方式模仿人类直觉。但结果证明，Libratus 能达到如此高度是因为它不仅是 AI。

Libratus 依靠 3 套不同系统的协作，这提醒我们现代 AI 并不是由一项而是多项技术驱动。这段时间以来深度神经网络抓住大多人的注意，当然这也有很好的理由：它们为一些全球最大型的技术公司从影像辨识到翻译，乃至搜索引擎等一切提供了动力。但神经网络的成功也为其他辅助机器模仿甚至超越人类天才的 AI 技术注入了新生命。

比方说，Libratus 就没有使用神经网络，它主要靠强化学习，这是人工智能的一种，一种强调除错的方法，其实就是自己跟自己大量玩游戏。Google DeepMind 实验室利用强化学习来开发 AlphaGo，这套系统攻克围棋的时间比预期早了 10 年，但这两套系统之间有一个关键点不同。AlphaGo 是透过分析人类玩家的 3,000 万份棋谱来学习的，然后才自己跟自己下棋来改进技能。相对而言，Libratus 是从零开始学。

透过一种名为“反事实遗憾最小化”（counterfactual regret minimization）的算法，它先随机玩，然后经过几个月训练和玩了上兆手扑克后，它也到达能挑战人类最强玩家的高度，不仅如此，它的玩法是人类无法做到的──它下注的范围大得多，且会随机下赌注，这样对手就更难猜到自己手上有什么牌。与指导教授 Tuomas Sandholm 一起开发这套系统的 CMU 研究生 Noam Brown 说：“我们只是向 AI 说明这个游戏，但没告诉它怎么玩。它完全独立于人的玩法形成自己的策略，而且它的玩法跟人类玩法非常不一样。”

这只是第一阶段。在匹兹堡比赛期间，第二套系统会分析游戏状态并聚焦第一套系统的注意力。这套系统属于一种“残局解算器”（end-game solver），上周 Sandholm 和 Brown 发表的论文详细说明了细节。在第二套系统的帮助下，第一套系统再也不需要像过去那样跑完所有可能的场景，它可以只试探其中一些场景。也就是说，Libratus 不仅在比赛前学习，而且还能在比赛中学到东西。

光靠这两套系统就已经很有效率了，但 Kim 等其他玩家仍能够找出机器玩法的一些型态然后设法加以利用。为此，Brown 和 Sandholm 开发了第三套系统。每天晚上 Brown 都会跑一个算法来辨识那些型态然后从策略中剔除。他说：“一个晚上它就能计算完然后次日备妥一切。”

如果这看来不公平，但 AI 就是这么强。这不仅表示 AI 跨越了许多技术，人类往往也频繁加入，积极地改进 AI、跑 AI 或增强 AI。Libratus 的确是个里程碑，展示一种新型 AI，从华尔街交易到网络安全乃至拍卖和政治谈判，这种 AI 都可以扮演特定的角色。曾帮助 Google 设立 AI 实验室，现为百度首席科学家的吴恩达说：“扑克曾是 AI 最难攻克的游戏之一，因为你只能看到部分资讯，扑克并没有单一最优下法。相反地，AI 玩家必须让自己的行动随机化，这样它唬骗时对方才无法确定真假。”

Libratus 把这点做到极致：它的下注非常随机化，甚至超过人类最强玩家的水准，如果这个方法不奏效，Brown 晚上跑的算法会弥补不足。金融市场交易员也可以采取相同做法，外交官亦然。这是一个强大且相当令人不安的想法：机器可以用豪赌吓退人类。

Inside Libratus, the Poker AI That Out-Bluffed the Best Humans

（本文由 36Kr 授权转载，首图来源：Flickr/Kat CC BY 2.0）

人工智能 Libratus 如何击败顶级德州扑克玩家？

延伸阅读：

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图