CVPR最佳论文奖首次给了自动驾驶!大模型加持,感知决策一体,出自中国团队|环球速递
时间:2023-06-26 11:35:31来源:金融界

国内的自动驾驶,终于走在世界前列!

来自上海人工智能实验室、武汉大学、商汤科技联合发表的论文——《Planning-oriented Autonomous Driving》(以路径规划为导向的自动驾驶)获得了2023全球计算机视觉盛会CVPR最佳论文奖。


(资料图片仅供参考)

要知道,这是CVPR在40年的颁奖历史上,第一篇以自动驾驶为主题的最佳论文。

也是近十年来计算机视觉三大顶级会议中,第一篇来自中国研究团队的最佳论文。

来源:OpenDriveLab

而CVPR是人工智能领域最具学术影响力的顶级会议之一,在谷歌学术指标2022年列出的全球最有影响力的6个科学期刊/会议中,CVPR位列第四,仅次于《自然》《新英格兰医学杂志》《科学》。

除了CVPR在学界和业界的影响力,其苛刻的评选标准更使得这次关于自动驾驶论文的获奖尤为特别。

今年CVPR的投稿量共计9155篇,最终接收论文2359篇,接收率为25.8%,而最终入围最佳论文候选名单的仅有12篇。

接下来咱们一起看看,这篇论文有什么开创性理论创新。

01

自动驾驶通用大模型UniAD

这篇获奖论文名为 《Planning-oriented Autonomous Driving》(以路径规划为导向的自动驾驶),论文中提出了自动驾驶通用算法大模型——Unified Autonomous Driving(UniAD)。

是的,这篇论文结合了今年爆火的大模型,论证了大模型与自动驾驶产业结合的潜力。

这篇论文首次将检测、跟踪、建图、轨迹预测、规划等整合到一个基于Transformer的端到端网络框架下,开创了以全局任务为目标的自动驾驶大模型架构先河。

CVPR官方组委会给出的获奖理由是:该论文提出了一个端到端的感知决策一体化框架,融合了多任务联合学习的新范式,使得进行更有效的信息交换,协调感知预测决策,以进一步提升路径规划能力。

来源:OpenDriveLab

下面我们就具体来看看,这篇论文是如何获得了组委会的认可。

现代自动驾驶系统的特点,是按顺序进行模块化任务,比如感知、预测和规划,为了执行各种各样的任务并实现高级智能。

但汽车智能化发展已经逐渐红海化。自动驾驶对计算能力和海量数据的处理能力要求更高,传统的各个小模型堆叠的方案,显然无法满足城市自动驾驶的需求,还有可能会出现多任务之间协调不足。

来源:上海人工智能实验室

所以这篇论文认为,有必要设计和优化一个综合的框架,来重新审视感知和预测这类的关键组件,并对这些任务进行优先排序。

基于这样的背景,上海人工智能实验室、武汉大学及商汤科技联合提出了一个感知决策一体化的端到端自动驾驶通用大模型UniAD。

来源:上海人工智能实验室

自动驾驶通用算法框架—— Unified Autonomous Driving(UniAD)首次将检测、跟踪、建图、轨迹预测,占据栅格预测以及规划整合到一个基于 Transformer 的端到端网络框架下,将全栈驾驶任务整合到一个网络中。

这次的获奖,无疑是印证了端到端的感知决策一体化算法被普遍认为是自动驾驶算法终局。

端到端比模块化好在哪?

“端到端”其实原本是深度学习(Deep learning)中的概念,英文为“End-to-End(E2E)”,指的是一个AI模型,只要输入原始数据就可以输出最终结果的过程。

通过一个大的模型实现多种模块化模型的功能,研发人员只需要针对这一个模型进行整体训练、调整优化,即可实现性能上的提升,因此可以更好地集中资源,实现功能聚焦。

而端到端自动驾驶,就是通过模型直接通过输入的图像或者视频信息得到汽车驾驶行为的指令。

来源:商汤科技

输入传感器信号后就可以直接输出车控信号,大大降低了信息误差的概率,也因此大大提升了系统性能的上限。

此前模块化的设计虽然简化了跨团队的研发难度,但因为优化目标是被隔离的,存在着跨模块信息丢失、误差积累和特征不对齐的风险。

而现在行业中大多数端到端的自动驾驶系统,一直没有一个很好的网络框架来融合全部五大模块,都只能融合部分模块。

来源:论文

所以这篇论文开创性地将所有的模块任务,都容纳到一个算法架构中,也是其得奖的关键原因。

据获奖团队介绍,这个UniAD模型能每个模块的优点结合起来,并从全局角度为各个组件之间协同达到互补的状态。

他们将一系列多摄像头图像输入特征提取器,并通过 BEVFormer 转换为统一的鸟瞰图(BEV)。这部分可以快速替换为其他BEV模型,具有较好可拓展性。

根据论文,UniAD 的训练分两个阶段:

首先联合训练感知部分,即目标跟踪和建图模块,然后使用所有感知、预测和规划模块端到端地训练模型20个阶段。

具体来看,他们除了将感知、预测、规划作为自动驾驶的三个主要任务之外、还划出了六小类子任务,其中包括了目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划。

然后将这些大大小小的任务整合到统一的端到端网络框架下,由三大主任务环节中下达诸多子任务,再通过统一的接口进行通信,方便彼此进行规划。

在感知环节,UniAD的目标检测与跟踪模块可以实现对动态元素的特征提取、帧间物体跟踪;在线建图模块实现了对静态物体的特征提取、实例级地图预测。

在预测环节,UniAD可以实现动静态元素交互与长时序轨迹预测;占据栅格预测模块实现了短时序全场景BEV、实例级预测。

在规划任务中,UniAD实现基于自车query的轨迹预测和基于占据栅格的碰撞优化。

来源:论文

总的来说,UniAD通过将环视的图片以Transformer映射得到BEV的特征后,同时进行目标的跟踪,在线的建图,包括目标轨迹的预测,还有障碍物的预测,现观察现预测,然后决定怎么行动,最终实现驾驶行为。

优势展示

他们在nuScenes真实场景上还实际测试了UniAD模型。所有任务均刷新了领域最佳性能SOTA(State-of-the-art),尤其是预测和规划效果远超之前最好方案,行驶的过程中同时生成高质量的可解释性感知和预测结果,并做出安全的操作。

其中,多目标跟踪准确率超越SOTA 20%,车道线预测准确率提升30%,预测运动位移和规划的误差则分别降低了38%和28%。

来源:商汤科技

具体来看,在晴天直行场景中,UniAD 可以感知左前方等待的黑色车辆,预测其未来轨迹(即将左转驶入自车的车道),并立即减速以进行避让,待黑车驶离后再恢复正常速度直行。

来源:上海人工智能实验室

在场景复杂的十字路口,即便是因为下雨,干扰较大的情况下,UniAD 能通过分离模块单独生成十字路口的整体道路结构,并完成左转指令。

来源:上海人工智能实验室

在夜晚视野变暗的情况下,UniAD 也同样感知到前车停车,且左右有障碍物的情况,并且完成了先静止,后左转的指令。

通过这些实例,证明了他们提出的这种理念在各个方面都要优于以前的所谓最先进的技术。

作为自动驾驶技术研究重要突破,UniAD 模型兼并了“多任务” 和“高效率”的特性,这次的获奖很大概率上也代表了当下自动驾驶未来的发展趋势。

02

落地还需要时间

在自动驾驶领域,端到端的大模型其实并不是什么新鲜概念。

早在2021年8月,特斯拉的 AI 高级总监Andrej Karpathy,就在特斯拉 AI DAY 上展示了一项新技术——基于 Transformer 的 BEV (鸟瞰视角) 的感知方案。

这个方案,相当于车辆正上方有一驾无人机在俯视车辆与周围环境,这也是大模型技术首次应用于自动驾驶领域。

如今两年的时间过去,大模型越来越受到厂商们的关注。

目前已经有不少企业在端到端BEV+Transformer 模型上有所布局,除了商汤科技外,还有像特斯拉,英伟达以及毫末智行等一系列公司。

比如商汤科技和联合实验室团队发布自动驾驶通用UniAD大模型之前,就推出了“SenseAuto绝影”智能汽车平台,搭建了智能座舱、智能驾驶、车路协同等业务板块。

来源:商汤科技

在智能驾驶方面,商汤提供有两套不同的解决方案,分别是高速领航和城市领航。

其中,高速领航搭载5颗毫米波雷达、7颗摄像头,采用16~48 TOPS算力平台。城市领航方案则在此基础上加了3个激光雷达,并采用大于200TOPS的高算力平台。

来源:商汤科技

商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚,将这些成果归功于商汤持续建设打造“大模型+大装置”技术路径。

而论文中所提到的大模型技术,从落地到产业完全跟进,仍需要很长一段时间。

特别是UniAD大模型属于囊括了所有规划任务的超大型架构,涉及感知、预测等非常复杂的系统,需要具备巨大的计算能力支撑,当然也需要充足的时间去训练计算能力。

来源:论文

从硬件水平,到训练时间,再到系统性的技术优化和工程落地,端到端自动驾驶方案仍面临很大挑战。

这次获得CVPR最佳论文奖,并不只是一次单纯的书面意义上的获奖,更像是人工智能大模型在自动驾驶上的一次融合前瞻,多模态大模型助力的也不仅是单个车辆的自动驾驶技术,而是推动高阶自动驾驶整体落地。

所以,不管怎样,这对于自动驾驶行业来说是一个振奋的消息,期待全栈端到端自动驾驶方案的大规模应用!

本文源自:超电实验室

标签:

最新
  • CVPR最佳论文奖首次给了自动驾驶!大模型加持,感知决策一体,出自中国团队|环球速递

    国内的自动驾驶,终于走在世界前列!来自上海人工智能实验室、武汉大学

  • 复兴号预计7月1日在青藏铁路正式运营

    记者从中国国家铁路集团获悉,7月1日起,复兴号动车组将正式在青藏铁路

  • 青海2023高考分数线分享 2023青海高考录取分数线是多少

    青海省2023年普通高校招生考试普通类各批次录取控制分数线出炉,大家知

  • 观天下!三亚11252名考生今日参加中考

    本报讯(记者 胡拥军) 海南2023年初中学业水平考试(以下简称“中考

  • 农行网上银行登录方法是什么(农行网上银行登录操作是什么)

    农行网上银行登录方法是什么(农行网上银行登录操作是什么),一起来

  • 【天天播资讯】天风证券:给予康恩贝买入评级,目标价位9.8元

    天风证券股份有限公司杨松近期对康恩贝进行研究并发布了研究报告《国企

  • 【环球速看料】顺德容桂端午龙舟饭启动

    佛山新闻网讯佛山市新闻传媒中心记者杨婷报道:6月20日,“岭南潮品顺

  • 全球报道:非遗面塑进校园,茶小九里堤分校学子跟着大师捏“熊猫”

    在全国第18个“文化和自然遗产日”到来之际,为进一步传承弘扬中华优秀

  • 0621早评:消费板块迎利好!沪指或将破位调整 全球焦点

    隔夜市场回顾一、外围股市走势周二美股三大指数集体收跌;富时中国A50

  • 端午节掀起一轮传统文化新浪潮|观焦点

    端午佳节将至,全国各地在“赛龙舟”这一端午节传统水上项目中可谓是玩

  • 洛阳古墓博物馆是真的古墓吗?洛阳古墓博物馆游览攻略

    洛阳古墓博物馆是真的古墓吗:你好,洛阳古墓博物馆的墓是真实存在

  • 【天天新要闻】羊绒衫可以用烘干机烘干吗怎么烘干_羊绒衫可以用烘干机烘干吗

    羊绒衫不可以用烘干机烘干。因为羊绒属于蛋白质纤维,就像人的头发,高

  • 世界短讯!2023广州图书馆端午节需要预约吗?

    2023广州图书馆端午节需要预约吗?2023年6月22日-6月24日端午节小长假

  • 今日热讯:限制稀土出口的原因是什么?限制稀土出口给我国带来了什么影响?

    限制稀土出口的原因是什么?稀土非常重要,但是稀土开发,对资源环

  • 红利转投是什么意思?红利再投资与现金分红有何区别?

    红利转投简单理解就是在投资者投资的基金分红后,系统会把投资者应

  • 全球热文:1股中报业绩预增97.99%

    CFi CN讯:  从6月19日晚间中报业绩预告来看,1股中报预增,容大感光

  • 旅游
    • 对柳湘莲的看法和感受(对柳湘莲的看法)

    • 【三夏进行时】海报|三晋夏收农忙“丰”景 环球热文

    • 我国经济发展态势将持续向好 多措并举优化民营企业发展环境

    • 一加即将推出派蒙主题《原神》联名手机 每日消息