想获得安全可靠的道路行驶能力,自动驾驶汽车必须对周围环境有全景式的了解。它不但需要认出周边呼啸而过的轿车、卡车、摩托车,同时还要看到慢吞吞的自行车和行人。
此外,交通讯号灯、路牌和路上的障碍物也无法放过。不过,这还不是最考验自驾车的事,让各家公司花费大量时间和资源搜集资料的各种天气和光照条件,才是自动驾驶能否真正上路的最高门槛。毕竟如果无法穷尽每种可能性,谁也不敢保证上路的自驾车不会惹出乱子。
一般来说,想让自驾车实现眼观四面、耳听八方,研究人员必须标记大量资料,而这些标记过的资料将成为机器学习算法的养份。
标记资料可不是轻松的工作,每家厂商都会派成百上千的工作人员处理车辆拍摄的照片或影片,他们需要用方框圈出旁边的车辆、路标等物体,同时还得贴上相应的标签。令工作人员绝望的是,这个标记资料的过程需要一遍又一遍的重复。
密歇根大学的研究人员想出更好的解决方案:在模拟中完成整个过程。对自己的想法,研究人员也是底气十足,因为他们已证明这种方法比人工标记真实资料要有效得多。
不过,机器人专家并不看好模拟法,因为模拟事实上是简化版的现实世界,在模拟中取得成功并不代表在现实世界中能百分之百安全。
密歇根大学研究人员并不服输,上周在新加坡举办的 IEEE 机器人与自动化国际会议上,他们就找来游戏大作《侠盗猎车手 5》,尝试透过该游戏证明虚拟世界也能训练深度学习系统辨识物体。这种方法靠谱吗?
▲ 《侠盗猎车手 5》中用于眼睛辨识的图片。
透过模拟的方式完成训练其实一举三得:
首先,速度大幅提升,而且与真车在路上采集资料相比费用少多了。
其次,在模拟中资料标记就变现成的,毕竟游戏程式对画面出现的物体属性非常清楚。
最后,在模拟环境中你可以设定任何刁钻路况或天气。在加州路上测试,你会发现这里总是阳光明媚,根本没什么挑战。
此外,在模拟环境中你甚至可以为同一路段设定不同的天气或路况,实现事半功倍。
▲ 在同一路段模拟不同的天气。
为了侦测虚拟世界中的训练效果,研究人员在游戏中生成三个模拟资料集,分别包含 1 万、5 万和 20 万张不同的游戏图片。
随后,深度学习目标探测系统开始以这些资料集为基础进行训练。当然,研究人员还准备另一个实车拍摄的资料集,名为 Cityscapes,包含 3 千张经过手动标记的图片,同样的深度学习系统也会以该资料集为基础训练。
训练完成后,两套系统需对名为 KITTI(也是实车实拍,但与 Cityscapes 不同)的资料 7,500 张图片进行眼睛辨识测试。
结果显示,在模拟环境中训练出来的深度神经网络辨识效果更好:用 5 万和 20 万张图片训练出来的深度神经网络表现要好过 3 千张资料集。研究人员称,单张模拟图片价值并不高,但如果数量够多,效果就会非常棒。
确实,单张模拟图片的训练效果不如单张实拍图片,毕竟现实世界中的光源、色彩和材质变化是电脑模拟无法比拟的,因此模拟图片只能以量取胜。
不过,只要有足够的计算能力,我们就能生成超多模拟图片,最重要的是这些图片不再需要人为标记了。
▲ 模拟图片(上)中的误报明显更少。
除了以上优势,在虚拟世界训练出来的神经网络在辨识较远和模糊车辆的能力上也更胜一筹。同时,这种方式也能减少误报。也许这种优势也是拜模拟图片的巨量所赐,包含的资料更宽泛,能为训练提供更加多样化汇入。
当然,用模拟图片训练神经网络也有缺陷:首先,虚拟世界不同于现实世界,一些难以预测的情况模拟不出来,而这些情况是自动驾驶最大的安全杀手。
不过,虽然我们无法靠《侠盗猎车手 5》解决所有问题,但密歇根大学的研究人员确实指了条明路,能大大降低各家厂商的成本,提升训练效率。
(本文由 雷锋网 授权转载;首图来源:VOLVO)