碾压谷歌、斯坦福大学！CVPR最佳论文颁给中国自动驾驶大模型：近10年首例

日期：2023-06-22 09:27 来源：互联网

这个高光时刻，属于自动驾驶，属于大模型，更是属于中国团队。

就在刚刚，CVPR 2023最佳论文新鲜出炉，2篇论文从总量高达9155篇的投稿中脱颖而出。

对于这2篇最佳论文中的任何一个，可以说用“万里挑一”来形容都不足为过了。

第一篇名为Planning-oriented Autonomous Driving（以路径规划为导向的自动驾驶），由上海人工智能实验室、武汉大学及商汤科技联合完成。

据了解，这是近十年来，计算机视觉三大顶级国际会议（CVPR、ICCV、ECCV）上，第一篇以中国学术机构作为第一单位的最佳论文。

CVPR最佳论文颁给中国自动驾驶大模型：近10年三大视觉顶会首例！

第二篇名为Visual Programming: Compositional visual reasoning without training（视觉编程：未经训练的组合视觉推理），由艾伦人工智能研究所发表。

CVPR最佳论文颁给中国自动驾驶大模型：近10年三大视觉顶会首例！

而在最佳论文的“候选名单”中，不乏谷歌、斯坦福大学、康奈尔大学等在内的顶尖企业和高校。

竞争之激烈，可见一斑。

那么这两篇为何能在众多论文中成为佼佼者，我们继续往下看。

首次提出感知决策一体的自动驾驶通用大模型

自动驾驶历来被人们称为集AI技术之大成者。

一般在自动驾驶任务中，通常包含三大模块，分别是感知、预测和规划，不过主流方案通常是分开来处理具体任务。

由此导致的缺陷也是比较明显，要么是任务之间协调不足，要么是影响到了整体性能的提升。

基于这样的一个背景，这篇论文便首次提出了感知决策一体化的自动驾驶通用大模型——UniAD。

CVPR最佳论文颁给中国自动驾驶大模型：近10年三大视觉顶会首例！

UniAD是一个综合框架，将全栈驾驶任务整合到一个基于Transformer的端到端网络中。

除了我们刚才提到的三个主任务之外，还包括六个子任务，包括目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划。

那么如此“大一统”的方式之下，结果又如何？

根据论文显示，在nuScenes真实场景数据集中，UniAD的所有任务均达到SOTA！

（责任编辑：AK007）