欢迎光临GGAMen游戏资讯




DeepMind 论文揭示最强 AlphaGo Zero,不靠人类知识进化成长

2024-12-26 204

AlphaGo“退役”了,但 DeepMind 探索围棋并没有停止。今年 5 月乌镇大会的“人机对弈”,中国棋手、世界冠军柯洁九段以 0 比 3 不敌 AlphaGo。随后 DeepMind 创始人 Hassabis 宣布,AlphaGo 将永久结束竞技舞台,不再比赛。同时 Hassbis 表示:“我们计划在今年稍晚发表最后一篇论文,详细介绍我们在算法效率取得的进展,以及应用在其他更领域的可能性。就像第一篇 AlphaGo 论文,我们希望更多开发者接过棒子,利用这些全新的进展开发属于自己的强大围棋程式。”

今天,DeepMind 如约在《Nature》发表这篇论文──名为《Mastering the game of Go without human knowledge》(不使用人类知识掌握围棋),DeepMind 展示了更强大的新版本围棋程式“AlphaGo Zero”,验证了即使像围棋这最具挑战性的领域,也可以透过纯强化学习的方法自我完善达到目的。

摘要:人工智能的长期目标是透过后天的自主学习(注:tabula rasa,意为“白板”,指所有的知识都是逐渐从感官和经验而来),在一个具挑战性的领域创造出超越人类的精通程度学习的算法。之前,AlphaGo 成为首个战胜人类围棋世界冠军的程式,当时 AlphaGo 透过深层神经网络下决策,并使用人类专家的下棋资料进行监督学习,同时也透过自我对弈强化学习。这篇论文,我们将介绍一种仅基于强化学习的算法,而不使用人类的资料、指导或规则以外的领域知识。AlphaGo 成为自己的老师,这神经网络训练用于预测 AlphaGo 自己的落子选择,提高了树搜寻的强度,使落子品质更高,具更强的自我对弈更新能力。从一块白板开始,我们的新程式 AlphaGo Zero 表现惊人,并以 100:0 击败了之前版本的 AlphaGo。

全新强化学习算法:无需任何人类指导

这篇论文的最大亮点,在于无需任何人类指导,透过全新的强化学习方式成为自己的老师,在围棋这最具挑战性的领域达到超过人类的精通程度。相比之前使用人类对弈资料,此算法训练时间更短,仅用 3 天就达到击败李世乭的 AlphaGo Lee 水准,21 天达到之前击败柯洁的 AlphaGo Master 水准。

3 天内──就是 AlphaGo Zero 击败 AlphaGo Lee 之前,曾进行 490 万次自我对弈练习。 相比之下,AlphaGo Lee 的训练时间达数月之久。AlphaGo Zero 不仅发现人类数千年来已有的许多围棋策略,还设计了人类玩家未知的策略。

据 DeepMind 部落格介绍,AlphaGo Zero 采用新的强化学习方法,从一个不知道围棋游戏规则的神经网络开始,然后透过将这个神经网络与强大的搜寻算法结合,就开始自我对弈了。训练过程中,神经网络更新和调整,并用于预测下一步落子和最终的输赢。

更新后的神经网络再度与搜寻算法组合,过程不断重复,建立出一个新的、更强大版本的 AlphaGo Zero。每次更新,系统的效能和自我对弈的品质均能部分提高。“日拱一卒,功不唐捐”,最终的神经网络越来越精确,AlphaGo Zero 也变得更强。

Alpha Zero 与之前版本有如下不同:

  • AlphaGo Zero 只使用棋盘上的黑子和白子输入,之前版本 AlphaGo 的输入均包含部分人工特征。
  • AlphaGo Zero 使用一个神经网络而不是之前的两个。以前版本的 AlphaGo 使用一个“策略网络”选落子位置,并使用另一个“价值网络”预测游戏的输赢结果。而 AlphaGo Zero 下一步落子的位置和输赢评估在同一个神经网络进行,进而使其更准确训练和评估。
  • AlphaGo Zero 无需随机推演(Rollout)──这是一种在其他围棋程式广泛用于胜负的快速随机策略,透过比对确定每手之后输赢的概率选择最佳落子位置,相反地,它依赖高品质的神经网络来评估落子位置。

上述差异均有助提高系统的效能和通用性,但最关键的仍是算法的改进,不仅使 AlphaGo Zero 更强大,功耗上也更高效。

▲ AlphaGo 不同版本所需的 GPU / TPU 资源。

技术细节

新方法使用一个具参数 θ 的深层神经网络 fθ。这个神经网络将棋子的位置和历史状态 s 为输入,并输出下一步落子位置的概率,用 (p, v) = fθ(s) 表示。落子位置概率向量 p 代表每步棋(包括不应手)的概率,数值 v 是一个纯量估值,代表棋手下在目前位置 s 的获胜概率。

AlphaGo Zero 的神经网络透过新的自我对弈资料训练,在每个位置 s,神经网络 fθ 都会进行蒙地卡罗树(MCTS)搜寻,得出每步落子的概率 π。落子概率通常优于初始的落子概率向量 p,在自我对弈过程中,程式透过基于蒙地卡罗树的策略来选下一步,并使用获胜者 z 为价值样本,可视为一个强有力的评估策略作业。过程中神经网络参数不断更新,落子概率和价值 (p,v)= fθ(s) 也越来越接近改善后的搜寻概率和自我对弈胜者 (π, z),这些新的参数也会用于下次自我对弈更新以增强搜寻结果,下图即为自我训练的流程图。

▲ AlphaGo Zero 自我对弈训练的流程示意图。

虽然这技术还算早期阶段,但 AlphaGo Zero 的突破使我们未来面对人类一些重大挑战(如蛋白质折叠、减少能源消耗、搜寻革命性的新材料等)充满信心。众所周知,深度学习需要大量资料,在很多情况下,获得大量人类资料的成本过于高昂,甚至根本难以获得。如果将该技术应用到其他问题,有可能对我们的生活产生根本性的影响。

  • AlphaGo Zero: Learning from scratch

(本文由 雷锋网 授权转载;首图来源:影片截图)

2019-03-17 09:31:00

标签:   游戏头条 资讯头条 ggamen科技资讯 ggamen科技 ggamen科技资讯头条 科技资讯头条 ggamen游戏财经 新闻网 科技新闻网 科技新闻 ggamen ggamen游戏新闻网 科技新闻 科技新闻网 ggamen游戏财经 ggamen科技资讯头条 ggamen科技 ggamen科技资讯 资讯头条 游戏头条 ggamen游戏新闻网 科技新闻 科技新闻网 新闻网 ggamen游戏财经 科技资讯头条 ggamen科技 ggamen科技资讯 资讯头条 游戏头条
0