据外媒 Venturebeat 报导,Facebook、乔治亚理工学院和俄勒冈州立大学研究人员近日发表预印本论文,说明人工智能的新工作──透过听自然语言指令,在 3D 环境导航(如“走到大厅,木桌旁左转”),他们说,这可为遵循自然语言指令的机器人助理奠定基础。
研究人员的工作称为连续环境的视觉和语言导航(VLN-CE),是在 Facebook 的模拟器 Habitat 进行,可训练机器人助理于模拟真实的环境作业。直径 0.2 米、1.5 米高的助理放在 Matterport3D 数据集内部,是透过 10,800 多个全景图和相应 3D 网格撷取的 90 个环境集合。
机器人助理必须在一条路上做 4 个动作(向前移动 0.25 米,左转或右转 15 度,停在目标位置)之一,并学会避免被障碍物困住,如椅子和桌子。
研究小组将这些环境提炼成 4,475 条由 4~6 个节点组成的轨迹,这些轨迹对应各位置拍摄的 360 度全景影像,显示导航能力。
他们用这个训练两个人工智能模型:一个 sequence-to-sequence 模型,由采视觉观察和指令表示的策略组成,并预测一个动作;另一个是两个网络交叉模式注意模型,追踪观察结果,并根据指令和特征决策。
研究人员表示,实验时表现最好的机器人可遵循“向左转,进入走廊”之类的指令,尽管这些指令要求机器人发现视觉路标前转动未知次数。机器人在看不见的环境,约三分之一场景导航到目标位置,平均采取 88 次行动。这些机器人偶尔也会失败,根据论文共同作者的说法,这些失败通常是机器人视觉漏了指令提到的东西。
“最重要的是,VLN-CE 为(研究)社群提供测试平台,可研究进阶和低阶控制界面这类整合实验。”作者之一写道。
Facebook 投入大量资源解决自动机器人导航的问题。去年 6 月,公布训练六足机器人走路的计划后,Facebook 首次推出 PyRobot,用于 PyTorch 机器学习框架的机器人框架。2018 年,Facebook 推出开源人工智能,透过 360 度影像在纽约市街道导航。最近 Facebook 某团队发表论文,说明透过看影片学如何在办公室走动的系统。
(本文由 雷锋网 授权转载;首图来源:Facebook)
延伸阅读:
- 员工窃取前东家算法还拿去 PyTorch 开源?MIT 教授控告 Facebook
- Facebook 最新开源框架 PyRobot,开辟 AI 机器人研究新纪元
- Facebook 又再实验新科技,让平面照片秒变 3D 照片