柯洁输得不冤枉，Master 版 AlphaGo 进步神速可让李世乭版 3 子 04月20日更新

日前于乌镇举办的围棋人机大战，中国顶尖棋士柯洁失利，以 1/4 子负于 AlphaGo。面对加强版的 AlphaGo，赛前外界普遍不看好柯洁能获胜。5 月 24 日的人工智能论坛上，AlphaGo 团队负责人就揭露了更多 AlphaGo 的开发细节，指 AlphaGo 化身 Master 在经过网上 60 场顶尖水准的对弈和自我学习后，棋力已比 2016 年对战李世乭时更进一步，而且使用最新的硬件和机器学习技术。面对更强的 Master 版本，柯洁仅负半目于首战落败，已表现出身为世界顶尖棋士的实力。

2016 年 3 月，由 DeepMind 研发团队开发的 AlphaGo 一鸣惊人，在五局对弈中以四胜一负的成绩压倒性击败韩国职业九段棋士李世乭。事隔一年，Google 于中国乌镇举办为期 5 天的围棋暨人工智能高峰会，掀起人工智能与人类顶尖棋士的第二次正式公开对决：DeepMind 的围棋人工智能 AlphaGo 与世界排名第一的柯洁九段展开三番棋对弈。在 23 日的首局对弈中，执白棋的 AlphaGo 以 1/4 子的优势先拔头筹获胜。柯洁亦在赛后表示，AlphaGo 实在出色，这一局输得心服口服，还形容 AlphaGo 已接近围棋之神了。

AlphaGo 快速自我完善进步神速全靠独特算法

AlphaGo 能屡屡击败人类顶尖棋手，在于其先进的机器学习算法。一直以来，围棋被认为是传统游戏中对人工智能最具挑战的项目。不单是因为围棋包含庞大的搜寻空间，更是因为对落子位置的评估难度，已远远超过简单的启发式算法，以现在的电脑运算能力，也无法就所有可能的棋局情况做穷举搜寻。DeepMind 研究科学家 David Silver 就在首日赛后的人工智能峰会上详细解构了 AlphaGo 背后算法的细节。

为了应对围棋的复杂性，在训练 AlphaGo 时，团队采用新颖的机器学习技术，结合人类专家监督学习和强化学习的优势。透过训练形成策略网络（Policy network），以棋盘上的局势为输入资讯，并对所有可行的落子位置产生概率分布，然后训练出价值网络（Value network）对自我对弈进行预测，以对手的绝对胜利到 AlphaGo 的绝对胜利为标准，预测所有可行落子位置的结果。

▲ AlphaGo 的训练模式。

在获取棋局资讯后，AlphaGo 就会根据策略网络探索哪个位置同时具备高潜在价值和高可能性，进而决定最佳落子位置。在分配的搜寻时间结束时，类比过程中系统最频繁考察的位置将成为 AlphaGo 的最终选择。

▲ 策略网络运作模型。

▲ 价值网络运作模型。

David Silver 解释，AlphaGo 透过将这两种网络整合进基于概率的蒙特卡罗树搜寻（MCTS）中，展现它真正的优势。而 2016 年初在网上突然出现，与世界顶级围棋选手进行了 60 场网上对局并取得全胜战绩的 Master，正是 AlphaGo 的升级版本。

▲ DeepMind 研究科学家兼 AlphaGo 团队负责人 David Silver。

对比李世乭时期的 AlphaGo，其主要透过预判 50 个回合和预测对手可能落子的位置来限制减少搜寻树规模，新的 Master 版本已经可以考虑到整个棋局最有价值的位置，而且能以最少回合预测数来达到更高的准确度。现在最新版本的 AlphaGo 能产生更大量自我对弈棋局，为下一代版本提供了训练资料，此过程循环往复，能不断将 AlphaGo 达致近乎完美。

▲ AlphaGo 在对决职业二段棋手樊麾，对战李世乭及与 60 名顶级水平棋手 3 个不同阶段的实力水平对比，AlphaGo Master 更达到可让 AlphaGo Lee 3 子的差距。

DeepMind 创办人：AlphaGo 已具备有限创造力

▲ DeepMind 的联合创始人兼 CEO Demis Hassabis。

David Silver 亦提到，AlphaGo 经过前期的全盘探索和过程中对最佳落子的不断揣摩后，其搜寻算法已可在计算能力上加入近似人类的直觉判断。DeepMind 的联合创始人兼 CEO Demis Hassabis 更表示，虽然领域有限，但 AlphaGo 已明显展现出具备透过组合现有知识产生新颖或独特想法的能力，即人类所说的创造力。

除了算法上的改进，硬件上的提升亦功不可没。David Silver 透露，AlphaGo Lee 版本时，需要在 Google Cloud 上 50 个 TPU（Tensor Processing Unit）运作，而搜寻 50 个棋步为每秒 10,000 个位置。他解释，每秒 10,000 个位置看似很多，但 20 年前由 IBM 研发，应用于分析国际象棋的深蓝（Deep Blue），已可每秒搜寻 1 亿个位置。相较之下，AlphaGo 透过策略网络和价值网络进行判断无疑更聪明，亦大幅节省无意义的穷举搜寻分支。

现在的 AlphaGo Master 版本，已可在单个 TPU 机（包含 4 个 TPU）上运作，亦能透过产生大量自我对弈进行自我学习，进一步调整出更强大的策略及价值网络，缩减搜寻树的分支和规模。他又指，目前运作 AlphaGo 的 TPU 是上周 Goolge I/O 2017 大会上公布的最新版本，专为机器学习设计，对比旧版，新版本在处理计算时所消耗的电量仅为以往的十分之一，运作效率亦提升了 10 倍。

AlphaGo 与柯洁的对决固然吸引人，人工智能的讨论也是这次峰会的另一重点议题。适逢 Google 上周在 I/O 2017 会上提出将“行动为先”转为“AI 为先”的策略，DeepMind 及 AlphaGo 团队的代表在乌镇现场的演讲中，不时提到 AlphaGo 只是 AI 在不同领域和行业应用的开始。

（本文由 Unwire.pro 授权转载；首图来源：DeepMind 影片截图）

柯洁输得不冤枉，Master 版 AlphaGo 进步神速可让李世乭版 3 子

AlphaGo 快速自我完善进步神速全靠独特算法

DeepMind 创办人：AlphaGo 已具备有限创造力

延伸阅读：

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图

柯洁输得不冤枉，Master 版 AlphaGo 进步神速可让李世乭版 3 子

AlphaGo 快速自我完善 进步神速全靠独特算法

DeepMind 创办人：AlphaGo 已具备有限创造力

延伸阅读：

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

AlphaGo 快速自我完善进步神速全靠独特算法