柯洁说：全力以赴下棋，之后不再与 AI 对弈 04月05日更新

5 月 23 日 14 点 52 分，一盘围棋在乌镇互联网国际会展中心收官，黑子以 1/4 子输给白子。

这是 AlphaGo 和柯洁的第一场正式比赛，猜先后，柯洁先手执黑，AlphaGo 执白，代 AlphaGo 执棋的是 DeepMind 资深研究员黄士杰博士。

与之前 AlphaGo 在网上化身 Master 连续 60 场不败的快棋不同，这一场比赛采用传统规则，每人有 3 小时时间。

在这场比赛终盘，柯洁的剩余时间仅 13 分钟，AlphaGo 的剩余时间却是 1 小时 29 分。但最终结束时柯洁仅以 1/4 子小负，并不像之前许多人悲观预测的“惨败”。

对一场被极度关注的赛事，柯洁在比赛刚开始时的表现却显得轻松。

他系一条天蓝色领带，正逢乌镇梅雨时节，这条领带让他看起来有一点小清新。虽然还不到 20 岁，但比赛中的柯洁总让人感觉不到他其实还是个少年。

柯洁和 Alpha Go 其实有一些相似，就是他们都很擅长学习。在第八手棋时，柯洁主动“点三三”。

“三三”是吴清源的名局，今年 1 月 AlphaGo 化名 Master 疯狂对战时常用这一招开局，现场解说的华以刚说明这种下法的时候这么说：太神奇了，也评论不出是好棋还是坏棋，因为根本就没见过有人这么下。柯洁很大胆的学了这招，并反用在 AlphaGo 身上。

尽管最后以很小的差距输给 AlphaGo，柯洁还是认为 AlphaGo 是个太厉害的棋手。这次 AlphaGo 跟上次人机大战版本不太一样，上次还像点人，但这次就完全不像了。

如果有一件事是柯洁从 AlphaGo 身上学到的，那就是：没什么棋无法下。

第一场比赛结束后的柯洁稍显落寞，甚至还苦笑了一下，其实他很早就知道自己要输了。但是他说后两场仍会全力以赴，因为这将是他和人工智能的最后两场比赛了，此后，他只和人类对弈。

为什么是今年，AlphaGo 现在能战胜人类？

深蓝在国际象棋领域战胜卡斯帕罗夫已过了 20 年，为什么 AlphaGo 在这么多年后才总算有望战胜人类？

其中一个重要的原因是，国际象棋的所有可能性只有 10 的 46 次方，而围棋的可能性是 10 的 170 次方。

在深蓝获胜 20 年之后电脑领域几乎没有停滞过的摩尔定律，为 AlphaGo 的出现提供了算法基础。

另一方面，人工智能算法在过去 20 年中也出现变化。最典型的是从双层神经网络进化到多层神经网络，而在反向传递的基础上多层神经网络的自主学习实现了可能。

简单来说，即便 1997 年人类就已做出AlphaGo使用的蒙特卡罗树搜寻，也不足以制造出能运算的电脑。

早在 1952 年，电脑专家图灵就编写了世界上第一个可以下国际象棋的计算机程序。但当时的电脑算力不足以支撑这个程式，图灵用纸和笔模拟验算，半小时下一步与同事对弈。

算力的改进为 AlphaGo 提供了比之前所有 AI 更快的思考速度，算法的改进则为 AlphaGo 提供了比之前任何 AI 都先进的思考方式。

两者共同实现的就是让 AlphaGo 在正常围棋赛的时间内，计算出下一步落子位置。这才是让 AlphaGo 在今天，此刻有可能战胜人类的原因。

AlphaGo 在第一局比赛中，剩余的时间很长，但赢的目数不多。AlphaGo 现有的算法依然有改进的空间。这也许是因为之前 AlphaGo 都在下快棋，还没有习惯“多思考一会儿”。

赛后举行的记者会上，柯洁在回答提问时表示：“要让我自己当嘉宾点评的话，我要说 AlphaGo 下得很好，有很多地方值得我们棋手去学习。我也深受 AlphaGo 的影响，没有什么其实是不可以下的，可以大量去创新，开拓自己的思维，是很值得我们去学习的。”

那么，AlphaGo 是如何赢得比赛的？

AlphaGo 的基础原理很多地方已经讲过了──既然围棋的可能性有 10 的 170 次方之多，那么就不可能透过穷举法来预测对手的每一步。

但是，现实中的围棋对弈也不需要这样预测所有可能，只需要综合围棋的一般下法、经典的棋谱、对手的下棋风格，猜出“此刻对手打算怎么走”就可以克制对方了。

按照先前的介绍，AlphaGo 抓取棋局资讯后，会根据策略网络（policy network）探索哪个位置同时具备高潜在价值和高可能性，进而决定最佳落子位置。

在规格的搜寻时间结束时，模拟过程中系统最频繁考察的位置将成为 AlphaGo 的最终选择。经过先期探索和过程中对最佳落子的不断揣摩后，AlphaGo 的搜寻就能在其计算能力上加入近似人类的直觉判断。

这套价值网络能近乎准确地判断出一颗棋子对周围环境的影响。一个棋子的价值很难衡量，但是如果能把棋盘上所有棋子当成整体来考虑时，就有掌控大局、把局部影响力转换为全局优势的能力。

正是这种全局观让柯洁输得特别“没脾气”，柯洁说这是一种“想发力却无处发力的无力感”。

在围棋这种人类发明的博弈游戏中，人工智能有两个先天优势是人类无法比拟的：

人工智能可以背下所有的棋谱和看完对手的所有比赛；

人工智能没有受正统围棋比赛的“套路”影响，下法上更出其不意。

但是随着 AlphaGo 不断公开比赛，第二点优势会逐渐消失。柯洁在这场比赛中展现了针对人工智能棋手惯用下法的一些策略，实际效果不俗，让这场比赛看起来几乎“势均力敌”。

而很多人注意到，这一局比赛中“AlphaGo 判断自己胜定后，在小官子阶段有退让”，这不一定是 AlphaGo 人性化了，而是 AlphaGo 在“学习”过程中，连人类这种下棋“礼仪”也学走了。

这有可能，反而是战胜 AlphaGo 的突破点。

成为最顶尖的围棋高手，然后呢？

柯洁这次三番棋后不会再和 AI 对弈，那 AI 呢？

从第一次人机大战到第二次，AlphaGo 的变化很大。

最初是学习大量棋谱，从中搜寻规律和经验，更深度的学习后，新一代 AlphaGo 逐渐摆脱人类思维，透过无数次自我对弈进行胜率最佳化。棋谱的数量有限，但是透过自我对弈，AlphaGo 却能得出更多新策略，就是常被大家认为“什么都敢下”的棋风。

这也是为什么 AlphaGo 被柯洁形容“越来越不像人”。AlphaGo 最初的学习参数是以人类棋谱为基础，而新版 AlphaGo 则增加强化学习的比重，也就是训练的资料大多透过自我对弈产生。如此更新迭代、循环往返，价值判断上就会越来越形成自己的风格。

可以说正是战胜自己千万次，AlphaGo 才能在棋盘上战胜柯洁一次，而柯洁就是人工智能在棋盘上能遇到的终极敌人。

学习方式越来越接近人脑，这确实达到 DeepMind 当初想用算法提炼智慧的目的。

除此之外，新版 AlphaGo 在计算能力上的提升也很巨大。DeepMind CEO Demis Hassabis 在赛后记者会上告诉大家，目前的 AlphaGo 透过云端单 TPU 执行，TPU 是专门为机器学习而设计的处理器。与去年 3 月与李世乭比赛时的版本相比，新一代 AlphaGo 的计算能耗仅为过去的十分之一。

如果这次真的全胜，AlphaGo 的下一个目标会是什么？Demis 称要把悬念留在不久后揭晓新一代 AlphaGo 的时候。

但三番棋才刚开始，AlphaGo 距离自己完胜人类还要经历 5 月 25 日和 27 日两场。虽然大多数预测都认为反转局势机会渺茫，但是如果能在比赛中摸索出 AlphaGo 一些套路，也许可以在剩余两场“挣扎”绝处逢生。

棋手若还能稳坐，旁人又何必多言。加油呀，代表人类的最终 Boss。

（本文由 PingWest 授权转载；首图来源：Flickr/Jaro Larnos CC BY 2.0）

柯洁说：全力以赴下棋，之后不再与 AI 对弈

为什么是今年，AlphaGo 现在能战胜人类？

那么，AlphaGo 是如何赢得比赛的？

成为最顶尖的围棋高手，然后呢？

延伸阅读：

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图