2017 人工智能年会 10 日特别邀请到 DeepMind 工程师黄士杰来畅谈发展 AlphaGo 的心路历程,除了分享协助 AlphaGo 下棋时几个感到意义重大的时刻,他也对 AI 未来的发展提出一些看法。
黄士杰表示,之所以会开始发展 AlphaGo,一切都是与 20 年前国际象棋王与 IBM“深蓝”的对局有关。
在国际象棋被 AI 打败后,人们开始将焦点转到更复杂的围棋,研究人员试着用国际象棋那套去设计下围棋的 AI,但棋力始终无法突破业余三段,这也让许多人相信围棋是 AI 最终挑战。
DeepMind 创办人 Demis Hassabis 可能也有相同的想法,他在 2011 年成立公司后便找来剑桥大学的同事 David Silver 一同发展,黄士杰则是在 2012 年加入 DeepMind。
其实 2011 年 DeepMind 就已与黄士杰联络,当时黄士杰设计的 ERICA 运用单薄的硬件设备击败了其他国家的 AI,赢得电脑奥林匹克(Computer Olympiad)19 路围棋冠军。
但当时的 DeepMind 并没有透露想发展围棋的意思,因此尽管收到 Silver 来信邀约,黄士杰还是先前往加拿大担任电脑围棋研究员,直至隔年才决定加入 DeepMind,成为 DeepMind 的第 40 号员工。
黄士杰表示,加入 DeepMind 的第一年,团队只是埋头进行 AI 相关研究,但 Hassabis 一直经常有意无意向他提到做围棋的想法,因此最后决定进行 AlphaGo 时,他并没有太感意外。
但 DeepMind 并没有打算要以 ERICA 为基础来发展。黄士杰还记得第一次讨论会议时,Silver 特别向他表示,团队的目标不是做出 ERICA+,因为过去的 AI 即使再进步还是有瓶颈在,再怎么提升棋力也无法与高端棋手对弈,“我们要做些不同的。”
休士顿,我们登陆月球了
在与柯洁的世纪之战后,Demis Hassabis 曾对外表态,自己 20 年前就希望做出 AlphaGo,但对黄士杰来说,至少对 5 年前还在念书的自己来说,做出 AlphaGo 是他从未想到的。
2014 年,DeepMind 被 Google 购并,团队加入了来自 Google Brain 的几名生力军,其中也包含知名的 Chris Maddison 及 Ilya Sutsk。在 Google 的硬件协助之下,AlphaGo 的开发开始进展得非常快速。
团队运用策略网络(Policy Network)的概念成功开发出最原型的 AlphaGo,并多次打败当时最强的电脑围棋程式,胜率达到 78%,这让黄士杰每天都有种“神经网络真是强!”的想法。
但此时 AlphaGo 的棋力还是远不足以与职业棋士对弈,在黄士杰的建议下,DeepMind 又再次扩充了团队,并在接下来开发出 AlphaGo 的主要突破:价值网络(Value Network)。
在与旧版本 AlphaGo 多次对弈中,搭载价值网络的 AlphaGo 展现明显的优势,黄士杰认为,这个突破正是展现了“强化学习联合深度学习”的胜利。
在这之后,Hassabis 认为是时候找职业棋士来对弈了,于是找来了 AlphaGo“职业生涯”中第一个对手:中国职业二段的樊麾。虽然黄士杰这时候还不太有信心,但 AlphaGo 还是在对弈中以 5-0 的差距击败了对手。
在打败樊麾之后,团队将下一个对弈目标锁定至李世乭,但 Hassabis 却同时开始计划发表 AlphaGo 的相关研究论文,这个举动让黄士杰不太理解,为什么选择在这个时刻公布论文,透露资讯让对手知道?
Hassabis 的回答让黄士杰至今日都还记得。“他说我们就是在做研究,科学就是要分享才能推动领域进步。”
论文刊出那天,团队也正式向李世乭发出战帖,这便是黄士杰认为对他来说第一个最重大的时刻──操作 AlphaGo 与李世乭对弈并获胜。
(Source:Flickr/NASA Goddard Space Flight Center CC BY 2.0)
与李世乭对弈前,DeepMind 一直不停训练 AlphaGo,就连圣诞节也是和 AlphaGo 一同度过。黄士杰表示,虽然团队非常希望获得胜利,但一开始只是抱着探索的心态,真的没有想过 AlphaGo 会这么强,强到足以打败高段职业棋士。
在与李世乭的对弈结束后,DeepMind 成员互相拥抱,黄士杰形容那种获胜的感觉,就像 Demis 赛后在推特写的一样。“AlphaGo 赢了,我们登陆了月球。”
网络不知名的棋士……不是 SAI
考量到 AlphaGo 获得的成功,有些人认为 DeepMind 可能会就此停下享受成功,但团队并没有打算停止研发。
之所以没有停下脚步,主要是因为在与李世乭对弈的第四局,AlphaGo 可说是“惨败”收场,当下从操作者的角度看来,黄士杰甚至认为自己来下都会比 AlphaGo 处理得好,因为 AlphaGo 犯的是一个非常初学者的失误。
“如果 AI 有弱点就没有人会使用,我们必须全面性的把 AlphaGo 弱点解决掉。”
深入研究后,团队发现 AlphaGo 对某些盘面评估会出现错误,黄士杰将之称为神经网络的“盲点”,最终透过加强学习效能才终于解决这项问题,AlphaGo Master 也就此诞生。
黄士杰解释,团队主要还是用深度学习跟强化学习去解决,改进 MCTS、让 AI 在直觉跟判断上更有一致性,同时加入了像是面对模仿棋、循环劫等特殊情况的训练,最终才创造出 AlphaGo Master。
(Source:Flickr/Kenming Wang CC BY 2.0)
一如往常,AlphaGo Master 诞生后团队也进行了新旧对弈,结果 Master 的胜率却来到 95%,高到一度让团队以为这是 bug,Master 甚至可以在让 3 子不贴目的情况下获胜。
在这之后,黄士杰试着说服团队上网对弈测试 Master 的能耐。就在提出想法后没几天,刚回到台湾的黄士杰便接到 Hassabis 开始进行对弈的通知,Master 的第一盘网络对弈就在台湾登场了。
黄士杰认为,网络对弈的这 60 盘棋对他来说是最重要的第二个时刻,由于团队在低调考量之下决定暂时保密 Master 的身份,却完全没想到会出这么大的新闻。
“因为那是一个全新的账号、没有对战纪录,所以第一天要求对战时被职业棋士拒绝,但到了第二天就换我开始拒绝别人。第三天开始观战的人变得很多,我都很害怕点错,想说 AlphaGo 不能因为我输掉。”
黄士杰表示,因为他自己也有在下围棋,所以就像许多业余棋手,也会一直期盼能和一些知名棋士下棋。当他操作 AlphaGo Master 网络对弈时,碰到许多对手都是他从小就崇拜的对象,所以虽然不是真的自己在下,但也很开心。
与柯洁的世纪之战
黄士杰印象最深的第三个时刻和许多人相同,便是前往中国乌镇与柯洁对弈。
黄士杰表示,当初在韩国与李世乭对弈时气氛比较沉重,李世乭的认真有一种“为人类奋斗”的感觉,当然这可能也与团队希望获得此次胜利来证明 AlphaGo 的实力有关。
到了中国乌镇时,整体气氛比较愉快,柯洁的棋力也确实让 DeepMind 感到非常惊奇,黄士杰指出,当初在网络与众多职业棋士对弈时,大约至 50 手左右 AlphaGo 的胜率评估就会呈现完全倾斜,无一例外。
(Source:达志影像)
在与柯洁下第二盘棋时,Hassabis 曾在过程中发推特称赞柯洁表现不可思议,黄士杰也有同样想法,因为至 50 手左右,AlphaGo 的胜率评估还是呈现拉锯状态,“他是唯一一个人类可以跟 AlphaGo 下到这种地步。”
虽然并未激荡出像与柯洁下棋那样的火花,但黄士杰认为乌镇后续的人机合作、团体赛都非常有趣,因为这些赛事带来一种 AI 与人合作的气氛,而这正也是 DeepMind 想强调的:AI 是工具,会帮助人类。
忘掉一切,左右互搏
AlphaGo Zero 其实是在创造出 Master 几个月后生出来的,当时 Hassabis 认为该阶段的 AlphaGo 已经完成所有任务,必须继续往前,于是便要求团队开始着手进行。
Zero 版本的概念其实很简单,就是将“人类知识”全部拿掉,只让 AlphaGo 了解围棋最基本的规则:棋盘是 19×19、双方分执黑白子、不能移动棋子、围地决胜……等,任何人类得出的概念都没有输入,Zero 完全从零开始。
“在一开始预期里,我认为 Zero 绝对打不赢 Master,毕竟围棋有几千年历史, 难道学几个月就可以赢吗?”
(Source:DeepMind 影片截图)
而这段教导 AlphaGo Zero 的过程,也是黄士杰印象最深的第四个时刻。黄士杰表示,当初团队要创造 Zero 时,他有点怀疑其中的可行性,但 Zero 最后确实证明了自己的实力。
由于对基本概念全然未知,黄士杰形容 Zero 最初下棋时简直是“彻底乱下”,因为团队是采用两台 Zero 互相对弈的方式,双方经常会下满整个棋盘,过程中也经常出现卡住状态。
但随着团队不断调整系统,Zero 在左右互搏之间逐渐摸索出道路,短短几个小时之间,一些人们下棋时常见的套路就出现了。“看着 AlphaGo 自己发现我们那些从小学习的理论,那种感觉很有趣。”
Zero 进步的速度远比 DeepMind 想像得还快,黄士杰将 Zero 形容为“3 天走过几千年围棋史”;训练到第 21 天时,Zero 已达到 Master 下棋的水准,到了第 40 天时,Zero 已经超越了 Master。
黄士杰表示,Zero 让他想起当初在师大念博士班时没日没夜研究 ERICA 的日子,那几十年在电脑上研究的时间一下子就被 Zero 几十天内超越了,让他一度感到心情非常复杂。
但后来他还是想通了,因为作为电脑围棋的发展趋势,这段过程势必无法避免,以 Zero 的棋力为收尾是再好不过,“如果‘我’会成为 Zero 的阻碍,那的确应该拿掉。”
人因梦想而伟大
谈到最后,黄士杰感叹,到了后期他经常看不懂 AlphaGo 下棋的套路,神经网络真的太强了,尽管如此,能够透过 AlphaGo 让喜爱的围棋受到许多人关注,这令他非常开心,“好像作梦一样”。
(Source:2017 台湾人工智能年会)
黄士杰认为,AlphaGo 的成功除了说明团队合作与硬件设备的重要,也是深度学习与强化学习的胜利,Zero 更展示了强化学习的巨大潜力,未来甚至有可能逐渐用到其他应用,带来更多改变。
当然以目前来说,考量到研究经费,不属于大企业的研究团队要打造出类似 AlphaGo 的软件不太实际,但黄士杰表示,许多科学研究一开始就非常昂贵,DeepMind 只是希望运用 AlphaGo 探索极限,告诉大家这些事情是有可能做到的。
虽然母公司 Alphabet 目前仍没有打算将 AlphaGo Zero 开源,但黄士杰强调,公开的论文他写得很清楚,复制应该不会太难,“我们只是做出第一个版本,后面当然都还有再优化的可能。”
尽管 Zero 确实展现出 AI 在特定范围的能耐,但 DeepMind 认为距离要发展出“强人工智能”(Strong AI)还有非常长的一段距离。黄士杰表示,一些同事觉得还需要 30 年,一些人认为要 100 年,无论如何可以确定的是,做出意识本质会是更遥远的事。
但黄士杰相信,至少在可见的未来,AI 会成为人类的工具、与人类合作,就像中国乌镇的棋赛。
(首图来源:2017 台湾人工智能年会)
延伸阅读:
- 柯洁盘中失误再吞一败,AlphaGo 之父:是目前为止最势均力敌的比赛
- 三番战未能取下一胜,柯洁:与 AlphaGo 间有着巨大的差距
- DeepMind 论文揭示最强 AlphaGo Zero,不靠人类知识进化成长