微软新研究：无人机获推理能力，看图就能做决策 04月05日更新

一般来说，人类透过感知做决定，比如看到障碍物选择躲开。

尽管这种“从感知到动作”的逻辑应用到感测器和镜头领域，并成为目前机器人自主系统的核心。但目前机器的自治程度远远达不到人类根据视觉资料做决策的程度，尤其处理第一人称视角（FPV）航空导航等开放世界感知控制时。

不过，微软 17 日分享的新机器学习系统带来了新希望：帮助无人机透过影像推理出正确决策。

微软从第一人称视角（FPV）无人机竞赛获得启发，竞赛时操作者可透过单眼镜头规划和控制无人机的执行路线，大大降低发生危险的可能性。因此，微软认为，这模式可应用到新系统，将视觉资讯直接连结至正确决策。

具体来说，新系统明确将感知套件（理解“看到的”内容）与控制策略（决定“做什么”）分开，这样便于研究人员除错深层神经模型。模拟器方面，由于模型必须分辨模拟和真实环境间细微的差异，微软使用名为“AirSim”的高传真模拟器训练系统，然后不经修改，直接将系统安装到真实场景的无人机。

▲ 微软测试使用的无人机。

微软还使用称为“CM-VAE”的自动编码器框架紧密连结模拟与现实间的差异，进而避免过度拟合合成资料。透过 CM-VAE 框架，感知模组输入的影像从高维串列压缩成低维表示形式，比如从 2 千多个变数降至 10 个变数，压缩后的画素大小为 128×72，只要能说明最基本状态就行。尽管系统仅使用 10 个变数编码影像，但解码后影像为无人机提供“所见场景”的丰富说明，包括物体大小位置，以及不同背景资讯，且这种维度压缩技术平滑且连续。

为了展示系统功能，微软使用有前置镜头的小型敏捷四旋翼无人机测试，尝试让无人机根据 RGB 摄影机的影像自我导航。

研究人员分别在 8 个障碍框组成的长达 45 米 S 型轨道，以及长达 40 米的 O 型轨道测试安装新系统的无人机。实验证明，使用 CM-VAE 自动编码框架的无人机表现比直接编码的表现好很多。即便有强烈视觉干扰的情况下，新系统也顺利完成工作。

▲ 测试场地的侧视和俯视。

微软声称：

在模拟训练阶段，在无人机从未“见过”的视觉条件下测试，我们将感知控制框架发挥到极致。

通过模拟训练后，此系统能独立在现实世界充满挑战的环境下“自我导航”，非常适合部署于搜索和救援工作。研究参与者表示，此系统实际应用时将展现巨大潜力──尽管年龄、身材、性别、种族和其他因素都不同，但自主搜索和救援机器人更能清楚辨识出人类，并帮助人类。

Microsoft researchers train AI in simulation to control a real-world drone

（本文由雷锋网授权转载；图片来源：微软）

微软新研究：无人机获推理能力，看图就能做决策

延伸阅读：

热门推荐

《还愿》回来了！有游戏还有童书，台湾限定实体版开放预购

《还愿》游戏从 Steam 下架！开发商赤烛：维护品质进行检测

《还愿》遭中国网友抵制、团队道歉、中国代理商终止合作，销量反冲高

我们的肉眼每秒能够捕捉多少画面？

最新内容

十年后全球锂电池产能高达 1.3TWh，亚太仍是生产重地

小脑其实并不小，研究：只有可丽饼厚，皱褶拉平长达 90 公分

全球最快！荣总团队 7 天就能找出新生儿听损原因

废弃火箭应已撞向月球，NASA 绕月飞行器预计 3 月中进行成像

聚焦电动车散热工程方案，高柏科技推出一条龙散热对策服务

金价触 2,000 美元大关，普丁盟友哈萨克原油也遭回避

303 停电惩处出炉，台电董事长杨伟甫准辞、王美花续留

真实版钢铁擂台！新北、鸿海合办世界级 FRC 机器人区域大赛

心诚镁结盟台耀、台新药！攻全球呼吸治疗药 CDMO 商机

高龄者打疫苗送 500 元内赠品！网传打三剂返台免隔离为假讯息

关于我们

新闻资讯

意见反馈

网站地图