《星海争霸 II》玩家，很快就可在天梯上为 DeepMind 的论文付出贡献了 04月14日更新

7 月 10 日晚上，暴雪联合 DeepMind 发表新闻，DeepMind 开发的《星海争霸 II》AI“AlphaStar”很快就会出现《星海争霸 II》欧洲服务器的 1v1 天梯比赛。人类玩家不仅有机会与 AI 配对、和它们展开标准比赛，比赛结果也会像正常比赛影响自己的天梯分数。

在《星海争霸 II》做科研实验

正如人尽皆知的围棋 AI AlphaGo，DeepMind 喜欢的强化学习 AI 研究过程，是在某项比赛（博弈）环境进行技术探索，在新技术的辅助下让智慧体从历史数据学习、从自我博弈学习，然后与人类高手比赛，评估 AI 的水准。樊麾、李世乭、柯洁都光荣成为“人工智能测试高级工程师”。

此次《星海争霸 II》AI“AlphaStar”的研究过程，DeepMind 继续沿用这个思路，但这次他们更大胆，让大批不同水准的普通玩家参与 AI 表现评估，最终的比赛结果会写到《星海争霸 II》AI 科研计划的论文，投稿到学术期刊。这就是暴雪和 DeepMind 联手把 AI 送上天梯比赛的最重要原因。

进入《星海争霸 II》游戏，在 1v1 比赛设置了允许接入 DeepMind（DeepMind opt-in）之后，参加 1v1 天梯比赛的玩家就可能会遇到 AlphaStar。为了控制所有比赛变项都尽量接近正常的人类 1v1 天梯比赛，以及减小不同比赛间的差异，AlphaStar 会随机配到一部分玩家的天梯比赛，且 AI 会保持匿名，配到的玩家和《星海争霸 II》后台都无法知道哪些比赛有 AlphaStar 参与。不过，设置允许接入 AI 后，相信玩家立即就会开始对配到 AI 产生期待，而且比赛开始之后，也可能很快就会发现对手有些不寻常之处。

▲ 1 月的比赛中，AlphaStar 会建造大量工人，快速建立资源优势（超过人类职业选手的 16 个或 18 个上限）。

▲ 1 月的比赛中，AlphaStar 控制的两个追猎者黑血极限逃生。

今年 1 月时 AlphaStar 就曾与人类职业选手比赛并取得全胜。相比当时的版本，此次更大规模测试的 AlphaStar 版本有些改动，其中一些明显对人类有利：

1 月版 AlphaStar 可直接读取地图所有可见内容，不需操作切换视角，这次需要自己控制视角，和人类一样只能观察到视野内的单位，也只能在视野内移动单位。
1 月版仅使用神族，这次 AlphaStar 会使用全部 3 个种族。
1 月版操作方面没有明确的性能限制，这次，与人类职业选手共同商议后，对 AlphaStar 的平均每秒操作数、平均每分钟操作数（APM）、瞬时最高 APM 等方面都更严格限制，减少操作方面的优势。

参与测试的 AlphaStar 都从人类比赛 replay 和自我比赛学习，没有从与人类的对局学习，同时 AlphaStar 的表现会在整个测试期间保持不变，不进行训练学习；这样得到的测试结果能直接反映 DeepMind 目前的技术水准到达怎样程度。另一方面，既是 AlphaStar 技术方案的一大亮点，参与测试的 AlphaStar 也会是 AlphaStar 种群（AlphaStar league，详见下文）的多个不同个体，配到的不同 AlphaStar 个体可能会有迥异的游戏表现。

AlphaStar 技术特点

这里把 AlphaStar 的技术特点总结如下（详细可参见文章）：

模型结构：AlphaStar 使用的是长序列建模模型，模型从游戏接口接收的数据是单位列表和这些单位的属性，经过神经网络计算后输出至游戏执行的指令。这个神经网络的基础是 Transformer 网络，并结合一个深度 LSTM 网络核心、一个带有指针网络的自动回归策略头，以及一个中心化的评分基准。

▲ AlphaStar league 的个体形成明显的策略分布。（Source：DeepMind）

训练策略：AlphaStar 首先根据高水准人类比赛进行监督学习训练（模仿学习），然后进行自我对弈。自我对弈过程使用群体强化学习的思路：AlphaStar 自我对弈过程始终都同时记录、更新多个不同版本的网络，保持一个群体，称为 AlphaStar league；AlphaStar league 中不同网络有不同的对战策略、学习目标等，维持群体的多样性，整个群体的对弈学习保证持续稳定的表现提升，且最新的版本也不会“忘记”如何击败最老的版本。
训练结果输出：当需要输出一个网络为最终训练结果时，以 AlphaStar league 的纳许平衡采样，可得到已发现的多种策略综合最优解。
算力需求：为了支援大批不同版 AlphaStar 智慧体的对战与更新，DeepMind 专门构建了一个大规模可拓展的分布式训练环境，使用最新的 Google TPUv3。AlphaStar league 的自我对战训练过程用了 14 天，每个 AlphaStar 智慧体使用 16 个 TPU，最终相当于每个智慧体都有长达 200 年的游戏时间。训练结束后的模型在单块消费级 GPU 就可运行。
操作统计：1 月版中，AlphaStar 的平均 APM 为 280，峰值 APM 超过 1,000，计算延时平均为 350 毫秒；切换关注区域的速度大约每分钟 30 次。

此次在 AlphaStar 测试的大行动空间下的长序列建模，以及群体强化学习的训练策略，都是对提升强化学习算法表现上限、应对复杂环境长期任务的积极技术探索。我们期待早日看到 DeepMind 的论文发表，更期待早日看到基于强化学习的决策系统让整个领域发展得更成熟。当然了，喜欢《星海争霸 II》的读者，可以准备一下，为 DeepMind 这篇论文贡献一份力量吧！

（本文由雷锋网授权转载；首图来源：影片截图）

《星海争霸 II》玩家，很快就可在天梯上为 DeepMind 的论文付出贡献了

在《星海争霸 II》做科研实验

AlphaStar 技术特点

延伸阅读：

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图