OpenAI 造出一款机器手臂，50 小时就能累积 100 年的训练量 04月19日更新

由伊隆‧马斯克（Elon Musk）创办的非营利性人工智能组织 OpenAI，向外界展示了一项新的研究成果：让机械手像人手抓取和操纵物体。虽然这种仿真造型的手掌已见过很多，但让“手指”能和人类手一样灵活可动，对机器结构来说不是一件简单的事。

下面的动图能看到，这套名为 Dactyl 的机器手臂系统能按照指令要求，轻松完成转动立方体的动作，且这种包含各种技巧的指尖操作，显然比过去看到的机器人行走跳跃复杂得多。

Dactyl 之所以能高效运作，和 OpenAI 使用的强化学习算法有关。就像刚出生的小孩，AI 或机器人刚造出来的时候什么都不懂，如果你希望它能完全理解某项复杂任务的流程，肯定需要反复训练。

尤其是对真实存在的物理机器人来说，研究人员往往要耗费大量现实时间指导其练习。

但 OpenAI 现在的做法，是完全在虚拟环境训练 AI 机器人，然后再把 AI 应用在实体机器人身上。他们还在训练过程增加大量动态随机事件，让 AI 自己领悟完成任务的诀窍。

以这次的机器手掌为例，他们会在一个控制网络教导机器手臂最基础的翻转指令，以及利用镜头，在视觉网络预估立方体的位置和方向；然后开始改变周围环境的灯光和噪声，还有立方体的颜色、重量、纹理和摩擦力等；甚至是改变重力环境因素。

之所以加入随机化变量，是为了让 AI 更能应付各种意外情况：“比如说不同的重力环境下，Dactyl 就会领悟这对立方体操控造成哪些影响。不然现实世界中，一旦我们改变手臂的高度，重力环境发生改变，立方体可能就会滑落。”

另外，由于不用模仿人类的行为，所以 OpenAI 的训练方式也可允许 AI 充分思考人类没有想过的方式，说不定能获得意想不到的成果。

这种虚拟环境的训练模式还有一个好处，就是不耗费现实世界的时间。目前 Dactyl 已积累约 100 年的训练经验，尝试用无数种方法来控制立方体转动，但实际上这个过程只相当于现实世界的 50 个小时而已。

在虚拟世界里完成训练后，AI 就可应用这些经验分析现实世界的动态因素，并调整行为完成任务了。如今 Dactyl 已可连续完成 50 次立方体旋转操作，且不会出错。

值得一提的是，这种超高效训练模式不仅能运用在物理机器人，也同样可用于其他虚拟 AI 模型。去年 7 月，OpenAI 开发的 Open AI Five 在虚拟世界经历上万个小时的学习，实际上只花费了几天时间，然后便在 Dota2 游戏击败了职业选手 Dendi。

虽然只是一次 Solo 对决而非 5v5，但依旧让我们看到人工智能在电竞这种复杂领域的有效性，包括我们熟知的“围棋杀手” AlphaGo，也是 DeepMind 公司使用深度强化学习训练出来的 AI 模型。

据说强化学习的灵感最早来自人类长期观察自然界动物学习过程，之所以近几年才开始尝试，也是受益于神经网络技术进步，以及 OpenAI 本身的规模优势。一旦强化学习的基准更多样复杂，自然也得付出不小的运算成本。

按照 OpenAI 的数据，Dactyl 的训练设备动用约 6,144 颗 CPU，以及 8 颗 Nvidia 的 V100 GPU，这种规模的基础硬件只有很少数研究机构才能用得起。

总地来说，OpenAI 提出的“将模拟环境的成果应用到现实世界”会是开发通用机器人的有效解决方案之一，但也有机器人专家认为，这种程度的实验结果只局限在某特定任务，能否真正解决现实世界的难题，仍然是未知数。

（本文由爱范儿授权转载；图片来源：OpenAI）

OpenAI 造出一款机器手臂，50 小时就能累积 100 年的训练量