不需要人类知识，AI 也能以更少步数复原任意 3 阶魔方 04月20日更新

魔术方块是非常有趣的益智玩具，但从难度来说，其实不比其他棋类游戏困难，如果人工智能（AI）算法可在国际象棋或围棋轻松打败人类，那么复原魔术方块也不是困难的事。

但是对算法来说，要解出魔术方块的谜题和下棋是完全不同种类的任务。

过去在棋类游戏展现出超人类表现的算法，都是属于传统的“强化学习”（RL）系统，这类型 AI 确定某些特定一步是实现整体目标的积极步骤时，便会获得奖励，进而使系统产生追求最大利益的习惯性行为，然而当 AI 无法确定这一步是否有益，强化学习自然无法发挥作用。

如果还是无法理解，试着这么想吧：玩棋类游戏时，系统可轻易判定一个动作究竟属于“好棋”或“坏棋”，但转动魔术方块时，你能说出任何特定的一步，是改善整体难题的关键吗？

从外观来看，魔术方块是很单纯的益智玩具，然而因为 3D 立体的特性，这让一般常见的 3 阶魔术方块就已有惊人的近 4.33×10¹⁹ 种组合，其中只有六面都是相同颜色的状态才能成为“正确解答”。

过去人们已研究出许多不同算法和策略来解决这项难题，但 AI 研究人员真正的目标还是希望能像 AlphaGo Zero 那样，让 AI 在没有任何历史知识的情况下，学会自行应对随机的魔术方块难题。

近期加州大学 Stephen McAleer 和团队透过一种称为“自学迭代”（autodidactic iteration）的 AI 技术打造“DeepCube”系统，成功让 AI 面对任何乱序 3 阶魔术方块时，都能成功找出正确解答。

根据团队解释，自学迭代是一种全新的强化学习算法，与过去棋类游戏算法的处理方式不同，采取“反著看”的内部奖励判断机制：当 AI 提出一个动作建议时，算法便会跳至完成的图形往前推导，直到到达提出的动作建议，藉以判断每一步动作的强度。

虽然听来相当繁杂，但这让系统更熟悉每一步动作，并得以评估整体强度，一旦获得足够的数据，系统便能以传统的树状搜索方式找出如何移动最好的方法。

▲ DeepCube 自行找出的策略 aba^-1，许多玩家也经常使用。（Source：arXiv via Stephen McAleer）

团队研究发现，DeepCube 系统在训练时自己找出许多与人类玩家相同的策略，并在经过 44 小时的自学训练后，已能在没有任何人为干预下，平均 30 步以内复原任何随机乱序魔术方块──这些“最佳解答”不是和人类最佳表现一样好，就是比这些表现更好。

McAleer 和团队打算未来进阶测试更大、更难解决的 16 阶魔术方块，这项全新的系统将有助于 AI 应用更全面化，像是生物物理学重要的蛋白质折叠（Protein Folding）问题或也有望得以解决。

（首图来源：pixabay）

不需要人类知识，AI 也能以更少步数复原任意 3 阶魔方