一般来说,人类透过感知做决定,比如看到障碍物选择躲开。
尽管这种“从感知到动作”的逻辑应用到感测器和镜头领域,并成为目前机器人自主系统的核心。但目前机器的自治程度远远达不到人类根据视觉资料做决策的程度,尤其处理第一人称视角(FPV)航空导航等开放世界感知控制时。
不过,微软 17 日分享的新机器学习系统带来了新希望:帮助无人机透过影像推理出正确决策。
微软从第一人称视角(FPV)无人机竞赛获得启发,竞赛时操作者可透过单眼镜头规划和控制无人机的执行路线,大大降低发生危险的可能性。因此,微软认为,这模式可应用到新系统,将视觉资讯直接连结至正确决策。
具体来说,新系统明确将感知套件(理解“看到的”内容)与控制策略(决定“做什么”)分开,这样便于研究人员除错深层神经模型。模拟器方面,由于模型必须分辨模拟和真实环境间细微的差异,微软使用名为“AirSim”的高传真模拟器训练系统,然后不经修改,直接将系统安装到真实场景的无人机。
▲ 微软测试使用的无人机。
微软还使用称为“CM-VAE”的自动编码器框架紧密连结模拟与现实间的差异,进而避免过度拟合合成资料。透过 CM-VAE 框架,感知模组输入的影像从高维串列压缩成低维表示形式,比如从 2 千多个变数降至 10 个变数,压缩后的画素大小为 128×72,只要能说明最基本状态就行。尽管系统仅使用 10 个变数编码影像,但解码后影像为无人机提供“所见场景”的丰富说明,包括物体大小位置,以及不同背景资讯,且这种维度压缩技术平滑且连续。
为了展示系统功能,微软使用有前置镜头的小型敏捷四旋翼无人机测试,尝试让无人机根据 RGB 摄影机的影像自我导航。
研究人员分别在 8 个障碍框组成的长达 45 米 S 型轨道,以及长达 40 米的 O 型轨道测试安装新系统的无人机。实验证明,使用 CM-VAE 自动编码框架的无人机表现比直接编码的表现好很多。即便有强烈视觉干扰的情况下,新系统也顺利完成工作。
▲ 测试场地的侧视和俯视。
微软声称:
在模拟训练阶段,在无人机从未“见过”的视觉条件下测试,我们将感知控制框架发挥到极致。
通过模拟训练后,此系统能独立在现实世界充满挑战的环境下“自我导航”,非常适合部署于搜索和救援工作。研究参与者表示,此系统实际应用时将展现巨大潜力──尽管年龄、身材、性别、种族和其他因素都不同,但自主搜索和救援机器人更能清楚辨识出人类,并帮助人类。
- Microsoft researchers train AI in simulation to control a real-world drone
(本文由 雷锋网 授权转载;图片来源:微软)
延伸阅读:
- 微软升级 AirSim 开源平台,要为自动驾驶保驾护航
- 微软释出开源的无人机训练模拟器 Airsim