今年 2 月,长期隐身的自动驾驶汽车技术研发公司 Drive.ai 悄然上线,发表了一段长约 4 分钟的影片。影片中,一辆测试汽车在雨夜中穿行美国加州山景城(Mountain View)的街道,全程驾驶员的双手都没有碰到方向盘,没有任何干预动作。
我们找到 Drive.ai 的联合创始人王弢,和他聊了聊 Drive.ai 背后的设计理念和核心技术。
Drive.ai 想为商业车队提供包括感测器组合、控制系统和车内外互动界面在内的后装套件,达到特定路线(如外卖、计程车等)的 L4 级别自动驾驶(即在任何情况下都不需要人工干预)。
感知方面,Drive.ai 后装套件中的感应器包括多个镜头、雷达和激光雷达,这样的组合可以在某一感测器出现错误或故障的情况下提供支援,譬如镜头和雷达可以在雨雪雾等极端天气中,为精准性下降的激光雷达提供环境感知。值得一提的是,大部分自动驾驶技术提供商采用高精确度地图来弥补感测器缺陷、为自动驾驶提供资料支援路线规划,而 Drive.ai 则想避免使用维护和营运成本很高,且临时变数不可控的高精确度地图,目前使用的是自己收集资料生成、不包含 3D 空间内物体资讯的 2D 地图,未来会和第三方地图供应商合作。
决策方面,不同于一些起步较早、技术路线基于传统机器人学习的自动驾驶技术提供商,Drive.ai 使用的是基于非规则学习的深度学习网络模型,这有 3 项优势。其一,场景泛化。规则学习虽然可以快速建立起应对八、九成场景的决策系统,面对新的和罕见情况却很难可靠应对;非规则学习的泛化能力,让它更即时理解资料并解决此类长尾问题。其二,复杂决策。大量算例支援下的非规则学习,有复杂决策方面的优势,这已在 AlphaGo 等深度学习程式中体现。未来会有很长一段时间,路上会有自动驾驶车辆和人工驾驶车辆共存,而自动驾驶所需的复杂决策(是否超车、变换车道等)与围棋相似──观察对方的动作,进行自己下一步动作,合理获得路权。其三,硬件需求。自动驾驶过程中,感测器每小时会采集几十 GB 的资料流,储存和计算都是很大的挑战。利用非规则学习而非现成的知识程式库进行决策,对计算芯片的效能要求相对较低,在计算能力相当于个人电脑的车载装置上,即可完成核心资料处理。
非规则学习的核心、也是进展困难,是大量标注的资料,以及大量的实验试错。Drive.ai 的资料源包括采集车收集的真实资料,和模拟器生成的各种场景(包含极端情况)的模拟资料。对这些场景中出现的物体(如车辆、行人、自行车等)进行标注,是个技术瓶颈──每小时车程收集的资料需要 800 个小时的人工标注,而王弢告诉 36Kr,Drive.ai 利用自己的标注系统进行半自动辨识和标注,比其他公司快 20 倍,能在短时间内撷取到更多有用的资料。在实验方面,Drive.ai 的团队同样有较多积累。譬如在使用大规模显卡(CPU+GPU)集群进行大规模神经网络训练方面,Drive.ai 就拥有市面上最快的大规模并列计算软硬件基础架构。之前 Google 曾使用千余台机器完成当时世界最大的深度学习神经网络,Drive.ai 彼时在史丹佛的团队用 16 台机器、十分之一的成本就可重建。
非规则学习的问题在于算法不可解释:“端到端”的训练中,策略规划有不透通的区域,原理和机制并不明确。针对这个问题,Drive.ai 采用当下学界主流的生成式对抗网络(GANs),将完整的端到端系统拆分开来,在涵盖大多数场景的标准化测试机上,对决策机制的不同部分进行验证和测试。
在达到自动驾驶功能之外,Drive.ai 认为自动驾驶车辆与其他通勤者的沟通同样重要,因此设计了包括 LED 显示屏幕和音响系统,向行人和自行车示意自己的行为。这些人车互动(human-robot interaction,HRI)部分的设计还在持续开发中。
▲ Drive.ai 在车顶装载了一个 LED 察看屏幕,用于向行人和其他驾驶者传递文字资讯和 emoji 表情。
已经获得美国加州无人驾驶路测执照的 Drive.ai,现处于路测阶段。虽然 demo 中表现很好,但从样车测试到产品落地还有一段路要走。落地中常见的成本过高和场景拓展性低等问题,Drive.ai 应该能较好应对──Drive.ai 的套件在成本上控制严格,感测器以低价镜头和雷达为主,高价的激光雷达使用较少,并规避了运维成本高的高精确地图;此外,非规则学习算法也提升了 L4 技术可运用场景的可拓展性。
公司还未正式进入商业化营运,但今年会进行和一些第三方运输服务提供商的试营运(约数十至百辆车),在固定路线上进行 L4 级别的自动驾驶,期间会进行人为监督。这些预设行驶路线上的乘客和货物的运输,将初步证明其技术的可靠性。同时,Drive.ai 也向一些车厂提供 L2~L3 级别的技术,达到初步商业化。目前暂时不方便透露更多合作对象的资讯。
▲ Drive.ai 团队。
麦肯锡和彭博新能源经济资讯联合发布报告称,2030 年进阶别自动驾驶汽车(L3 和 L4)将达到整体销量的 50%,其中 L4 级别的市场规模达到 5,500 万辆至 6,000 万辆。鉴于自动驾驶的发展方向将是 toB 主导──营运商统一管理自动驾驶汽车,提供去人力化的端到端运输解决方案──这五千多万辆车,就是面向商用车队的 Drive.ai 的下游市场。
这个市场上选手云集,想要向商用车和乘用车提供 L4 级别自动驾驶技术 Drive.ai 的竞争对手,既有拥有造车经验的传统整车厂,又有财力人力和技术皆储备雄厚的科技巨头,还有其他初创公司。这 5,500 至 6,000 万辆车中,去掉 Google、特斯拉、百度、沃尔沃、BMW 等自主研发的车,剩余的有多少会搭载 Drive.ai 的解决方案,取决于 Drive.ai 能否比通用收购的 Cruise Automation、福特收购的 Argo AI、专注出租车的 nuTonomy、专注物流商用车的 Otto 和图森等自动驾驶技术提供商,更早推出低成本且安全可靠的整体解决方案。
公司共有大约 50 名员工,其中以技术人员为主。Drive.ai 的核心团队来自史丹佛大学人工智能实验室,对自然语言处理、电脑视觉和自动驾驶等领域的深度学习有丰富经验。董事会还包括通用汽车前高层 Steve Girsky。
Drive.ai 近期计划开始新一轮融资,暂不方便透露融资额,预计在数亿人民币,主要用于技术开发和车队拓展。去年 5 月,公司获得来自 Northern Light Venture Capital、Oriza Ventures 和 InnoSpring Seed Fund 的 1,200 万美元投资。
(本文由 36Kr 授权转载;首图来源:Drive.ai)
延伸阅读:
- 这家神秘的创业公司,选在“雨夜”挑战自动驾驶