一年前,Alphabet 旗下人工智能部门 DeepMind 发表 AlphaZero,称它可以自学国际象棋、日本将棋和围棋,并且项项都能击败世界冠军。而在 8 日,经过同行评议,AlphaZero 一举登上《科学》杂志封面。
据之前 DeepMind 在 AlphaZero 论文介绍,AlphaZero 使用完全无需人工特征、无需任何人类棋谱、甚至无需任何特定最佳化的通用强化学习算法。也就是说,AlphaZero 实质上就是 AlphaGo Zero 的通用进化版本,它继续保持 AlphaGo Zero 中不需要人工特征、利用深度神经网络从零开始进行强化学习、结合蒙地卡罗树搜寻的特点,并在此基础上,更新网络参数,减少网络估计的比赛结果和实际结果之间的误差,同时最大化策略网络输出动作和蒙地卡罗树搜寻可能性之间的相似度。
(Source:《科学》杂志)
然而,DeepMind 发表 AlphaZero 之际,AlphaZero 也遭到某种程度的质疑,例如,一位 AI 研究人员就指出,DeepMind 没有公开 AI 系统源代码,因此难以检验和重复公布的结果。如今这项研究成果经同行评议登上《科学》杂志封面,算是得到了证明。有趣的是,AlphaZero 的直接对手──棋士也纷纷表达赞许:
例如日本将棋 9 段职业选手、棋史唯一一位获得“永世七冠”头衔的棋士 Yoshiharu Habu 就评价:
它的一些移动方法,比如将 King 移到棋盘中心,就违背了日本将棋棋法。从人类角度来看,AlphaZero 的下法似乎已将棋置于危险的境地,但令人难以置信的是,它仍然掌控棋局。它独特的下棋风格,让我们看到了棋法新的可能性。
国际象棋前世界冠军 Garry Kasparov 也不住称赞:
我无法掩饰赞许,因为它的下棋风格灵活多变,跟我的风格很像!
一个多世纪以来,国际象棋一直用做人类和机器认知的罗塞塔石碑。AlphaZero 以一种独特的方式,对古代棋盘游戏与尖端科学之间的显著联系带来了新东西。
其影响远远超出我心爱的棋盘。这些自学成才的专家机器不仅表现得无比出色,且实际上,人类还可从它们产出的新知识中学习。
正如前面提到的,AlphaZero 是 AlphaGo Zero 的通用进化版本,而 AlphaGo Zero 又源自 AlphaGo,接下来不妨简单回顾一下这几个版本:
最初的 AlphaGo 的工作原理是:
在蒙地卡罗树搜寻(MCTS)的框架下引入两个卷积神经网络策略网络和价值网络,以改进纯随机的蒙地卡罗(Monte Carlo)模拟,并借助监督学习和强化学习训练这两个网络,然后主要靠策略网络和价值网络分别预测下一步落子的点以及评估当前的局势。
从 AlphaGo 到 AlphaGo Zero,系统的思路和模型结构都大幅简化,带来更快训练和执行速度,以及更高棋力。
更早版本的 AlphaGo,策略网络和价值网络是两个不同的深度神经网络,Zero 版是同一个 ResNet 的两组输出;
AlphaGo Zero 之前几个版本都需要先把局面转换为高一层的人工特征再当成网络输入、需要先学习人类棋谱,再转变到自我对弈的强化学习、有一个单独的快速走子网络去随机模拟,而 AlphaGo Zero 则把局面落子情况直接当成网络输入、由随机网络权值直接开始强化学习、舍弃快速走子网络,直接用主要神经网络模拟走子。
接着从 AlphaGo Zero 到 AlphaZero,变化主要体现在如下几方面:
第一,AlphaGo Zero 会预计胜率,然后优化胜率,只考虑胜、负两种结果;AlphaZero 则会估计比赛结果,然后优化达到预计结果的概率,其中包含了平局甚至别的可能结果。
第二,由于围棋规则具旋转和镜像不变性,所以专为围棋设计的 AlphaGo Zero 和通用的 AlphaZero 就有不同的达成方法。AlphaGo Zero 训练会为每个棋局做 8 个对称的增强数据;且在蒙地卡罗树搜寻,棋局会先经过随机旋转或镜像变换之后再交给神经网络评估,这样蒙地卡罗评估就可在不同偏向之间得到平均。国际象棋和日本将棋都不对称,以上基于对称性的方法就不能用了。所以 AlphaZero 并不增强训练数据,也不会在蒙地卡罗树搜寻中变换棋局。
第三,在 AlphaGo Zero 中,自我对局的棋局是由所有之前的更新过程表现最好的版本生成。每次训练更新后,新版棋手的表现都要跟原先表现最好的版本比较;如果新版能以超过 55% 的胜率赢过旧版,那么新版就会成为“表现最好的版本”,然后用它生成新的棋局供后续更新最佳化使用。相比之下,AlphaZero 始终都只有一个持续最佳化的神经网络,自我对局的棋局也就是由具最新参数的网络生成,不再像原来那样等待出现一个“表现最好的版本”之后再评估和更新。这实际上增加了训练出一个不好结果的风险。
第四,AlphaGo Zero 搜寻部分的超参数是透过贝氏定理最佳化得到。AlphaZero 直接对所有棋类使用同一套超参数,不再对每种不同的棋单独调节。唯一的例外在于,训练中加在先前版本策略的噪声大小,这是为了保证网络有足够探索能力;噪声大小根据每种棋类的典型可行动作数目做了成比例的缩放。
将 AlphaGo 发展到 Alpha Zero,DeepMind 无疑带给我们许多惊喜。使用人工特征的 AlphaGo Fan 在出山之战便全胜打败樊麾,还发表第一篇论文;50 块 TPU 上执行的 AlphaGo Lee 以 4:1 战绩击败李世乭,还创作了纪录片并上映;接着只用 4 块 TPU 的 AlphaGo Master 又在乌镇围棋峰会以 3:0 击败柯洁,打碎了人类可击败 AlphaGo 的幻想;再来又有抛弃人工特征和所有人类高手棋局的 AlphaGo Zero 靠自学成功超越了“前辈”AlphaGo Master。现在,DeepMind 带来的更通用、能下各种棋类、且在围棋表现更上一层楼的通用强化学习模型“AlphaZero”,则给我们带来更大的惊喜。
AlphaGo 的一路进化中,我们见证了 DeepMind 的工程师对深度强化学习本质的思考和尝试,也看到不断最佳化带来的无需先验知识、降低资源消耗、提高训练速度等可喜的技术进步。本次 AlphaZero 登上《科学》杂志封面,也算是对他们的尝试和技术进步的最好回馈。接下来 DeepMind 还将让 Alpha Zero 进化到哪个地步呢?一起期待吧!
(本文由 雷锋网 授权转载;图片来源:DeepMind)
延伸阅读:
- 下个版本的 AlphaGo,会不会已经能认路了
- 谈 AlphaGo 带来的启发,黄士杰:深度学习是具“创造性”的
- DeepMind 论文揭示最强 AlphaGo Zero,不靠人类知识进化成长