5 月 23 日 14 点 52 分,一盘围棋在乌镇互联网国际会展中心收官,黑子以 1/4 子输给白子。
这是 AlphaGo 和柯洁的第一场正式比赛,猜先后,柯洁先手执黑,AlphaGo 执白,代 AlphaGo 执棋的是 DeepMind 资深研究员黄士杰博士。
与之前 AlphaGo 在网上化身 Master 连续 60 场不败的快棋不同,这一场比赛采用传统规则,每人有 3 小时时间。
在这场比赛终盘,柯洁的剩余时间仅 13 分钟,AlphaGo 的剩余时间却是 1 小时 29 分。但最终结束时柯洁仅以 1/4 子小负,并不像之前许多人悲观预测的“惨败”。
对一场被极度关注的赛事,柯洁在比赛刚开始时的表现却显得轻松。
他系一条天蓝色领带,正逢乌镇梅雨时节,这条领带让他看起来有一点小清新。虽然还不到 20 岁,但比赛中的柯洁总让人感觉不到他其实还是个少年。
柯洁和 Alpha Go 其实有一些相似,就是他们都很擅长学习。在第八手棋时,柯洁主动“点三三”。
“三三”是吴清源的名局,今年 1 月 AlphaGo 化名 Master 疯狂对战时常用这一招开局,现场解说的华以刚说明这种下法的时候这么说:太神奇了,也评论不出是好棋还是坏棋,因为根本就没见过有人这么下。柯洁很大胆的学了这招,并反用在 AlphaGo 身上。
尽管最后以很小的差距输给 AlphaGo,柯洁还是认为 AlphaGo 是个太厉害的棋手。这次 AlphaGo 跟上次人机大战版本不太一样,上次还像点人,但这次就完全不像了。
如果有一件事是柯洁从 AlphaGo 身上学到的,那就是:没什么棋无法下。
第一场比赛结束后的柯洁稍显落寞,甚至还苦笑了一下,其实他很早就知道自己要输了。但是他说后两场仍会全力以赴,因为这将是他和人工智能的最后两场比赛了,此后,他只和人类对弈。
为什么是今年,AlphaGo 现在能战胜人类?
深蓝在国际象棋领域战胜卡斯帕罗夫已过了 20 年,为什么 AlphaGo 在这么多年后才总算有望战胜人类?
其中一个重要的原因是,国际象棋的所有可能性只有 10 的 46 次方,而围棋的可能性是 10 的 170 次方。
在深蓝获胜 20 年之后电脑领域几乎没有停滞过的摩尔定律,为 AlphaGo 的出现提供了算法基础。
另一方面,人工智能算法在过去 20 年中也出现变化。最典型的是从双层神经网络进化到多层神经网络,而在反向传递的基础上多层神经网络的自主学习实现了可能。
简单来说,即便 1997 年人类就已做出AlphaGo使用的蒙特卡罗树搜寻,也不足以制造出能运算的电脑。
早在 1952 年,电脑专家图灵就编写了世界上第一个可以下国际象棋的计算机程序。但当时的电脑算力不足以支撑这个程式,图灵用纸和笔模拟验算,半小时下一步与同事对弈。
算力的改进为 AlphaGo 提供了比之前所有 AI 更快的思考速度,算法的改进则为 AlphaGo 提供了比之前任何 AI 都先进的思考方式。
两者共同实现的就是让 AlphaGo 在正常围棋赛的时间内,计算出下一步落子位置。这才是让 AlphaGo 在今天,此刻有可能战胜人类的原因。
AlphaGo 在第一局比赛中,剩余的时间很长,但赢的目数不多。AlphaGo 现有的算法依然有改进的空间。这也许是因为之前 AlphaGo 都在下快棋,还没有习惯“多思考一会儿”。
赛后举行的记者会上,柯洁在回答提问时表示:“要让我自己当嘉宾点评的话,我要说 AlphaGo 下得很好,有很多地方值得我们棋手去学习。我也深受 AlphaGo 的影响,没有什么其实是不可以下的,可以大量去创新,开拓自己的思维,是很值得我们去学习的。”
那么,AlphaGo 是如何赢得比赛的?
AlphaGo 的基础原理很多地方已经讲过了──既然围棋的可能性有 10 的 170 次方之多,那么就不可能透过穷举法来预测对手的每一步。
但是,现实中的围棋对弈也不需要这样预测所有可能,只需要综合围棋的一般下法、经典的棋谱、对手的下棋风格,猜出“此刻对手打算怎么走”就可以克制对方了。
按照先前的介绍,AlphaGo 抓取棋局资讯后,会根据策略网络(policy network)探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。
在规格的搜寻时间结束时,模拟过程中系统最频繁考察的位置将成为 AlphaGo 的最终选择。经过先期探索和过程中对最佳落子的不断揣摩后,AlphaGo 的搜寻就能在其计算能力上加入近似人类的直觉判断。
这套价值网络能近乎准确地判断出一颗棋子对周围环境的影响。一个棋子的价值很难衡量,但是如果能把棋盘上所有棋子当成整体来考虑时,就有掌控大局、把局部影响力转换为全局优势的能力。
正是这种全局观让柯洁输得特别“没脾气”,柯洁说这是一种“想发力却无处发力的无力感”。
在围棋这种人类发明的博弈游戏中,人工智能有两个先天优势是人类无法比拟的:
人工智能可以背下所有的棋谱和看完对手的所有比赛;
人工智能没有受正统围棋比赛的“套路”影响,下法上更出其不意。
但是随着 AlphaGo 不断公开比赛,第二点优势会逐渐消失。柯洁在这场比赛中展现了针对人工智能棋手惯用下法的一些策略,实际效果不俗,让这场比赛看起来几乎“势均力敌”。
而很多人注意到,这一局比赛中“AlphaGo 判断自己胜定后,在小官子阶段有退让”,这不一定是 AlphaGo 人性化了,而是 AlphaGo 在“学习”过程中,连人类这种下棋“礼仪”也学走了。
这有可能,反而是战胜 AlphaGo 的突破点。
成为最顶尖的围棋高手,然后呢?
柯洁这次三番棋后不会再和 AI 对弈,那 AI 呢?
从第一次人机大战到第二次,AlphaGo 的变化很大。
最初是学习大量棋谱,从中搜寻规律和经验,更深度的学习后,新一代 AlphaGo 逐渐摆脱人类思维,透过无数次自我对弈进行胜率最佳化。棋谱的数量有限,但是透过自我对弈,AlphaGo 却能得出更多新策略,就是常被大家认为“什么都敢下”的棋风。
这也是为什么 AlphaGo 被柯洁形容“越来越不像人”。AlphaGo 最初的学习参数是以人类棋谱为基础,而新版 AlphaGo 则增加强化学习的比重,也就是训练的资料大多透过自我对弈产生。如此更新迭代、循环往返,价值判断上就会越来越形成自己的风格。
可以说正是战胜自己千万次,AlphaGo 才能在棋盘上战胜柯洁一次,而柯洁就是人工智能在棋盘上能遇到的终极敌人。
学习方式越来越接近人脑,这确实达到 DeepMind 当初想用算法提炼智慧的目的。
除此之外,新版 AlphaGo 在计算能力上的提升也很巨大。DeepMind CEO Demis Hassabis 在赛后记者会上告诉大家,目前的 AlphaGo 透过云端单 TPU 执行,TPU 是专门为机器学习而设计的处理器。与去年 3 月与李世乭比赛时的版本相比,新一代 AlphaGo 的计算能耗仅为过去的十分之一。
如果这次真的全胜,AlphaGo 的下一个目标会是什么?Demis 称要把悬念留在不久后揭晓新一代 AlphaGo 的时候。
但三番棋才刚开始,AlphaGo 距离自己完胜人类还要经历 5 月 25 日和 27 日两场。虽然大多数预测都认为反转局势机会渺茫,但是如果能在比赛中摸索出 AlphaGo 一些套路,也许可以在剩余两场“挣扎”绝处逢生。
棋手若还能稳坐,旁人又何必多言。加油呀,代表人类的最终 Boss。
(本文由 PingWest 授权转载;首图来源:Flickr/Jaro Larnos CC BY 2.0)
延伸阅读:
- 柯洁输得不冤枉,Master 版 AlphaGo 进步神速可让李世乭版 3 子
- 柯洁盘中失误再吞一败,AlphaGo 之父:是目前为止最势均力敌的比赛
- AlphaGo 是否隐藏实力?看 DeepMind 团队如何回应
- 柯洁为何说“输得没脾气”?8 个问题解读人机大战第一局
- 柯洁完败,输 1/4 子是 AlphaGo 事先设定好的?