欢迎光临GGAMen游戏资讯




DeepMind 推出 AlphaGo 围棋教学工具,围棋学习新纪元来了?

2024-12-24 215

台湾时间 12 月 11 日晚上,DeepMind 在 Twitter 宣布推出围棋教学工具 AlphaGo Teach。

上图中,标有白圈的黑子表示上一手,虚线圆圈表示 AlphaGo 下一步可能的走法,实线圆圈表示人类选手下一步可能的走法,圆圈中的数字表示 AlphaGo 评估的黑子胜率。

从官网可以看到,该工具透过利用 231,000 盘人类棋手对局、75 盘 AlphaGo 与人类棋手对局的数据,能分析围棋近代史上 6,000 种比较常见的开局。透过这个工具,大家可以探索围棋奥妙,比较 AlphaGo 的下棋路数与专业选手、业余选手的不同点,从中学习。

官网对工具的使用也有相关说明:

如何使用这一工具?

点击棋盘上的彩色圆圈,或使用棋盘下方的导航工具,即可探索不同的开局变化,以及 AlphaGo 对每一步棋的黑棋胜率预测。

圆圈中的数字代表该步棋的黑棋胜率。当轮到黑棋落子时,数值越接近 100 表示黑棋优势越大;当轮到白棋落子时,数值越接近 0 表示白棋优势越大。50 则表示均势。

了解 AlphaGo 的胜率预测

AlphaGo 的下法不一定总是有最高胜率,这是因为每个下法胜率都是得自单独一个 1,000 万次模拟的搜寻。AlphaGo 的搜索有随机性,因此 AlphaGo 不同的搜寻可能会选择胜率接近的另一种下法。

除了官网的简单介绍,身为 DeepMind 围棋大使、AlphaGo 的“教练”,樊麾也在个人微博宣布“AlphaGo 教学工具终于上线。”

他表示,

教学工具共有两万多个变化,37 万多步棋组成,透过 AlphaGo 的视角,分析并建议围棋开局的诸多下法。同时每步棋 AlphaGo 都会分析自己的胜率,希望 AlphaGo 对围棋的独特理解可以给我们一些启发。

本教学工具使用的版本是 AlphaGo Master。具体讯息可在主页看到,工具设有包括中文简体在内的多个语言。

同时,樊麾也从 AlphaGo 的教学举了几个有意思的例子,并进行幽默的解说。“下边几个图是我从万千变化图中发现比较有冲击力的几个,类似的变化图有很多很多,大家可以自己找找。”

▲ 原来二路虎不见得好。

▲ 对付迷你中国流的新办法。

▲ 小林流也不是只有大飞挂。

▲ 原来这里还可以飞!

▲ 妖刀公式!

看到樊麾老师的微博之后,大家也开始各色各样的调侃。

@ 楼天:“有 21 天从入门到精通系列课程吗?”

@ 我就是那一片浮云:“完了,十段棋手猛烈增加。”

@ 自动高速公路:“做成 App 就可以成为围棋比赛作弊器了。”

@ 于缚风:“围棋辅导班的老师没法讲课了。”(围棋老师表示哭晕在厕所)

看完了大家的调侃,来看看专业棋士怎么说。

世界围棋冠军、职业九段棋士常昊表示,教学工具不一定是标准答案,更多的是给予我们无限的思考空间。

首届百灵爱透杯世界围棋公开赛冠军周睿羊说,“公式什么的还是不要随便学了,看到工具一些高级下法之后,感觉又可以起飞了。”

第 3 届钻石杯龙星战冠军、围棋国手李喆也对这教学工具发表中肯评价:很多人会担心今后布局的标准化,其实不必担心。教学工具并不是告诉大家“只能这么下”,而是告诉大家“有些下法不太好”以及“可以这么下”。有些图中没有的下法只是因为模拟的随机性而未收录,之中包含很多高胜率的选点,仍可以大胆尝试。

此外,今年 5 月被 AlphaGo Master 打败的柯洁第一时间转发微博表示“重新学围棋”(还用了一个贱贱的表情)。

而这个工具到底好不好用,大家可以体验看看。

官网英文网址:https://alphagoteach.deepmind.com/。

中文网址:https://alphagoteach.deepmind.com/zh-hans。

附上 DeepMind 研究科学家 David Silver 介绍 AlphaGo Master 的研发关键:

AlphaGo Master 为何如此厉害呢?

我们让 AlphaGo 跟自己对弈。这是基于强化学习,我们已经不再拿人类的棋局让它学习了。AlphaGo 自己训练自己、自己从自己身上学习。透过强化学习的形式,它学到如何提高能力。

棋局每一回合,AlphaGo 运行火力全开(full power)的搜寻以生成落子建议,即计划。当它选择这一步落子、实施,并到一个新回合时,会再一次搜寻,仍是基于策略网络和价值网络、火力全开的搜寻,来生成下一步落子计划,如此循环,直到一局棋结束。它会无数次重复这过程,产生大量训练数据。随后,我们用这些数据来训练新的神经网络。

首先,当 AlphaGo 和自己下棋时,用这些训练数据来训练一个新策略网络。事实上,在 AlphaGo 执行搜寻、选择一个落子方案之前,这些是我们能获取的最高品质数据。

下一步,让策略网络只用它自己、不用任何搜寻,来看它是否能产生同样的落子方案。这里的思路是:让策略网络只靠它自己,试图算出和整个 AlphaGo 火力全开搜寻结果一样的落子方案。这样一来,这种策略网络就比之前版本的 AlphaGo 要厉害得多。我们还用类似方式训练价值网络。它用最好的策略数据来训练,而这些数据,是出于完全版本的 AlphaGo 和自己下棋时的赢家数据。你可以想像,AlphaGo 和自己下了非常多盘棋。其中最有代表性的棋局选出来提取赢家数据。因此,这些赢家数据是棋局早期回合步法非常高品质的评估。

最后,我们重复这过程许多遍,最终得到全新的策略和价值网络。比起旧版本,它们要强大得多。然后再把新版本的策略、价值网络整合到 AlphaGo 里,得到新版本、比之前更强大的 AlphaGo。这导致树搜寻中更好的决策、更高品质的结果和数据,再循环得到新的、更强大的策略、价值网络,再次导致更强大的 AlphaGo,如此不断提升。

(本文由 雷锋网 授权转载;首图来源:pixabay)

2019-03-16 11:31:00

标签:   游戏头条 资讯头条 ggamen科技资讯 ggamen科技 ggamen科技资讯头条 科技资讯头条 ggamen游戏财经 新闻网 科技新闻网 科技新闻 ggamen游戏新闻网 科技新闻 科技新闻网 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技 ggamen科技资讯 资讯头条 游戏头条 ggamen ggamen游戏新闻网 科技新闻 科技新闻网 新闻网 ggamen游戏财经 ggamen科技 ggamen科技资讯 资讯头条 游戏头条
0