经过 4 个多小时对弈,柯洁以 1/4 子之差败给了AlphaGo。比赛后,曾参与训练 AlphaGo 的棋手樊麾,与九段常昊一起回顾整个对弈过程。柯洁也与 Deepmind 创始人 Demis Hassabis,以及 AlphaGo 的主程序员 David Silver 一同接受媒体采访,谈及对比赛的感想。
AlphaGo 注重整体局势的发展
樊麾提到,在经过年初 Master 的 60 局比赛后,很多棋手也在尝试用点三三这种下法。而柯洁也模仿了这种开局。
常昊在分析中表示,对整个棋局印象最深的,是白棋在开局后不久第 24 手的大飞,这显出 AlphaGo 更更注重中央势力的发展,对厚薄和棋局的发展有更多注重,因为这一步在未来棋局中的效率会更高。
AlphaGo 另一个令人印象深刻的也是在开局后不久,在棋局的左上方,下了一步断。在断之前,黑棋(柯洁)看起来很厚,但之后白棋(AlphaGo)也变厚了。常昊称,“这是走一步后手,但却留下了很多余味。”
▲ 白子第 24 手“大飞”,第 54 手“断”。
“这步带给我们新想法,有些棋不是无法下,是下了以后会有新思路。它提供一种思路创新,我们可以共同研究,为围棋的下法带来更多发展。”
虽然被围住的 4 个子看起来已经没救了,但 AlphaGo 依然更利用这 4 子,它会想把棋盘上所有子的价值都利用到。
柯洁:输得没脾气
柯洁在回顾比赛时也对第 54 手的断表示肯定。他称,“很震惊,这在人类的下法中是无法有的”。在断之后,它把自己的脚步实地化,变得更厚,一石二鸟。
柯洁感叹道,“实在下得太出色了,输得没什么脾气。”
Demis Hassabis 在赛后表示,这是一场非常精彩的比赛,他非常尊敬柯洁,这一战的表现令人佩服。他认为柯洁表现出顽强与精彩的实力,在赛前也做了很多战前准备。
“柯洁同时做了战略和战术的准备,比如点三三(这种策略),这是他从年初 Master 的 60 场比赛中的总结。他有自己的战略,有好几手都非常漂亮。第 24 手是全盘皆活的一手。接下来还有很多场比赛,我非常尊敬柯洁,让 AlphaGo 也必须全力以赴对付你。”
比赛的结果虽然出来了,但外界对 AlphaGo 和柯洁的好奇心没有满足。在采访中,双方也回答了很多大家关心的问题。
赛后柯洁为什么笑?
柯洁称,这是苦笑,不是很开心的笑。
“很早就知道自己会输。AlphaGo 的每一步棋都是均速的,到最后时已经知道会输多少了。”
对于自己的评价,柯洁称,“AlphaGo 下得很精彩,但我也尽了全力。它下得太好了,有很多地方值得棋手学习和探索。它对围棋的理念带来了冲击,改变我们最初对围棋的下法,没什么棋是无法下的。对 AlphaGo 的想法也有改变,我们可以大胆创新,开拓自己的思维,可以自由地下棋。今天也是大胆地开拓了自己的思维。”
柯洁还曾想用 AlphaGo 的策略来对付它。“我的印象中 AlphaGo 非常贪恋实地,比如点三三的方法,今天我也使用这种策略。但这意图被 AlphaGo 打败了,完全进入它的调子中。它真的下得非常好。”
柯洁认为,AlphaGo 的棋与去年完全是两个人。第一次时它很接近人,但现在越来越像“神”。
AlphaGo 有弱点吗?
柯洁认为,弱点暂时没看见。以前还是有弱点,但现在 AlphaGo 对围棋的理解与判断已经远胜于人类了,赢的话只能找一些 bug 出来。
但他同时说,“对自己永远要有信心。”
Hassabis 称,李世乭后 AlphaGo 再次参加比赛,就是希望棋手们能找到 AlphaGo 的弱点,找到它自己对弈时不知道的缺陷。
“李世乭当时在第 4 局找到了缺口,后来我们改善了程式。当然还会有新领域,我们和 AlphaGo 都不知道,所以才会参加比赛。”
David Silver 解释,AlphaGo 的做法是将获胜概率最大化,而不是接近式赢得比赛。它会搜寻一些确定的路线,实现低风险的获胜机会。这也是取舍问题,要决定如何扩大胜利的概率。当然,它还有一些其他目标,比如将胜利的步伐迈得更大,如果重点只放在获胜,它可能会降低风险,即使很小的风险也会关注。
对围棋的影响?
Hassabis 认为,围棋是一个非常有意思的主题,有无限的可能性。透过比赛,可以改进对围棋的理解,这是人类可以用的工具,让伟大的棋手发现更多围棋的奥妙。
AlphaGo 完全不依赖棋手训练吗?
David Silver 称,AlphaGo 一开始就是跟人类学习的,透过自身对弈来学习时,也必须跟人类对弈才行,因为与顶尖棋手对决才能改善。新版本是更多与自身对弈学习,实现自我搜寻,对人类资料的依赖更小了。而 DeepMind 的目标是让它的规则超越围棋,应用到其他领域。
战胜位于围棋顶端的柯洁后,AlphaGo 是否就此隐退?
对这问题,Hassabis 没有正面回应,只是表示,本周稍晚会宣布下一步怎么做。像第一版在学术期刊上发表技术细节一样,他们以后也会发表更多新版本的细节,会披露更多技术,让其他团队与实验室做自己的版本。
技术细节?多少个 TPU?单机版?
这次比赛的 AlphaGo 是新版本,它改善了新算法,主要进步是计算量少了十倍,自我对弈更强。
Hassabis 称,在比赛中程式是在一台单一机器上运作,这与去年不一样,当时是分散式的。这次有更强大的算法,运作起来更简单也更好,速度更快。
Hassabis 表示,计算力可以“在 Google 云中获得,用的是 TPU,十个处理单位,少了十倍的计算量”。简单点说,这次的 AlphaGo 是单机版。
柯洁再也不与人工智能比了?
赛前,柯洁发微博表示,这次比赛是最后 3 场与人工智能的比赛。赛后,他再次确认这个决定。
“考虑了很久,AlphaGo 进步太快了,每一步都是巨大的进步,在以后会更加完美,而人与它的差距不是靠自己的努力就能去弥补的。我相信科技的力量,未来是人工智能的。对围棋来说,我还是喜欢和人来下,因为机器与人的差距会越来越大,人赢的概率会越来越小,这样下棋太痛苦了,一盘都赢不了。”
他表示,以后也不会训练机器了,这是最后的三盘棋。
“希望以后还是下人类的棋,对软件把它当作一个老师,一个学习的对象去看待。”
他表示,对自己的表现也有点不满意,觉得自己可以做得更好,但有时候无论怎么努力都无法做到。所以这最后一次,他希望不留遗憾,下出让自己满意的棋局。
“令 AlphaGo 的主机发烫也好。”
那如果人类棋手不想和 AlphaGo 下了怎么办?
Hassabis 表示,从他们的角度来说,想要 AlphaGo 作为围棋工具,能为人类所用,所以会有架构知识的分享,让大家知道它。也希望它能走进寻常百姓家,在医学与科学找到应用场域。
(本文由 雷锋网 授权转载;首图来源:达志影像)
延伸阅读:
- 人机围棋大战首局落幕,柯洁以 1/4 子之差输给 AlphaGo