上海AI实验室联合团队获CVPR非常好的论文奖 | CVPR 2023
国际计算机视觉与模式识别会议(CVPR)是人工智能领域最有学术影响力的优异会议之一。加拿大温哥华当地时间6月21日,CVPR 2023正式公布了非常好的论文等奖项。上海人工智能实验室(上海AI实验室)、武汉大学及商汤科技联合提出的自动驾驶通用模型相关论文从9155篇作品中脱颖而出,获得本届CVPR非常好的论文奖(Best Paper Award)。
上海AI实验室联合团队获CVPR 2023非常好的论文奖
据悉,这也是近十年来计算机视觉三大优异会议中(CVPR、ICCV、ECCV)第一篇以中国学术机构作为第一单位的非常好的论文。入围本届CVPR非常好的论文候选名单(Award Candidate)的作品来自包括谷歌、上海AI实验室、斯坦福大学、康奈尔大学等在内的世界顶尖企业及机构。
最终,上海AI实验室联合团队的研究成果《Planning-oriented Autonomous Driving》[1](以路径规划为导向的自动驾驶)摘取CVPR 2023非常好的论文奖。该论文首次提出感知决策一体化的自动驾驶通用大模型UniAD,开创了以全局任务为目标的自动驾驶大模型架构先河, 为自动驾驶技术的发展创新提出了新的方向。
在本届CVPR上,上海AI实验室以一篇非常好的论文、一篇非常好的论文候选、12篇入选“Highlight”名单的成绩,在国际上充分展示了中国原创AI的实力!
万里挑一:中国科研团队闪耀国际顶会
CVPR在学术界及工业界都极具影响力。根据谷歌学术指标(Google Scholar Metrics)2022年列出的全球最有影响力的六大科学期刊/会议中,CVPR位列第四,仅次于《自然》(Nature)、《新英格兰医学杂志》(NEJM)、《科学》(Science)期刊,排在《柳叶刀》(The Lancet)和《先进材料》(Advanced Materials)之前。
CVPR每年评选出的一篇或多篇非常好的论文,不仅为计算机视觉领域的优异学术荣誉,更代表了将对未来技术或行业发展产生重要影响的里程碑式研究成果。
今年的CVPR非常好的论文近乎“万里挑一”。据CVPR大会公布,今年的投稿量达9155篇,创下历史新高。最终,大会共接收论文 2359 篇(接收率25.8%)。其中仅有12篇入选非常好的论文候选名单(Award Candidate,入选率1.3‰),提交机构不仅包括谷歌、Stability AI等人工智能领域顶尖企业,也包括上海人工智能实验室、斯坦福大学、康奈尔大学、香港中文大学、香港科技大学、南洋理工大学等世界优秀研究机构及高校。
在本届CVPR上,上海AI实验室有12篇论文入围“Highlight”名单,覆盖视觉基础模型、通才模型、三维视觉、底层视觉、视频检索、物体检测、姿态估计、自动驾驶等相关领域的研究。其中,UniAD相关工作获非常好的论文奖、三维物体数据集研究工作入围非常好的论文候选。
上海AI实验室主任助理乔宇表示,“上海AI实验室作为人工智能领域的新型科研机构,致力于开展战略性、原创性、前瞻性的科学研究与技术攻关,这次获奖在国际上充分展示了中国原创AI的实力!”
开创先河:感知决策一体化自动驾驶大模型
在今年的CVPR非常好的论文中,上海AI实验室联合团队提出了首个感知决策一体化的自动驾驶通用大模型,开创了以全局任务为目标的自动驾驶大模型架构先河, 为自动驾驶技术与产业的发展提出了新的方向。
UniAD:业界首个感知决策一体化的自动驾驶大模型
自动驾驶是一个高度复杂的技术体系,不仅需要多个学科领域的知识和技能,包括传感器硬件、机器学习、多模态融合等内容,还需要适应不同国家与地区的道路规则和交通文化,与车辆及行人进行良好的交互,以实现高度的可靠性和安全性。
自动驾驶系统中包含三大主任务即,感知、预测和规划。当前,业界主流的方案架构分别采用不同的模块来处理这些具体任务,但由于各模块并非以驾驶为最终目标进行优化,因而自动驾驶系统的整体性能提升受到了很大限制。
在UniAD中,研究人员首次将感知、预测和规划等三大类主任务、六小类子任务(目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划)整合到统一的基于 Transformer的端到端网络框架下,实现了全栈关键任务驾驶通用模型。在 nuScenes 真实场景数据集下,UniAD的所有任务均达到领域非常好的性能(State-of-the-art),尤其是预测和规划效果远超之前的非常好的方案。其中,多目标跟踪准确率超越SOTA 20%,车道线预测准确率提升30%,预测运动位移和规划的误差则分别降低了38%和28%。
在晴天直行场景中,UniAD 可以感知左前方等待的黑色车辆,预测其未来轨迹(即将左转驶入自车的车道),并立即减速以进行避让,待黑车驶离后再恢复正常速度直行
在雨天转弯场景中,即便面对视野干扰较大且场景复杂的十字路口,UniAD 仍能通过分割模块生成十字路口的整体道路结构(如右侧 BEV图中的绿色分割结果所示),并完成大幅度的左转
在夜晚视野变暗的情况下,UniAD能感知到前车并完成先静止,后左转的规划
自动驾驶是通用智能大模型“书生”(INTERN)重要的落地应用领域之一,近年来,上海AI实验室自动驾驶团队不断突破创新,挑战各项自动驾驶研究任务,在多模态、时空融合、端到端、多任务等方面提出了新思路、新模式。
上海AI实验室青年科学家李弘扬介绍,凭借其充分的可解释性、安全性、与多模块的可持续迭代性,UniAD是目前为止最具希望实际部署的端到端模型。基于UniAD的纯视觉自动驾驶方案可为产业界提供全新的研发思路,在节省大量硬件成本的同时,有助于提高出行的安全性与舒适性。该科研成果在产业界的落地应用,将有力地推动自动驾驶技术与产品的规模化发展。
[1]论文链接: https://arxiv.org/abs/2212.10156
代码链接:https://github.com/OpenDriveLab/UniAD