学术界圣地，给国内自动驾驶一席之地了！

CVPR 2023 正式公布最佳论文等重磅奖项。来自上海人工智能实验室、武汉大学、商汤科技团队联合发表论文Planning-oriented Autonomous Driving（以路径规划为导向的自动驾驶）实现自动驾驶技术的重要突破，获CVPR最佳论文。

国内自动驾驶，真的出息了！

(资料图)

一觉醒来，还没来得及吃口热乎粽子，就看见一条堪称爽文的热乎新闻：

在2023年，CVPR大会的论文投稿总量达9155篇。其中，商汤科技及联合实验室共有 54篇论文被CVPR 2023接收，包含一篇最佳论文、一篇最佳论文候选，以及七篇Highlight论文。

论文题目：Planning-oriented Autonomous Driving

论文地址：https://arxiv.org/abs/2212.10156

在近万篇论文中，上海人工智能实验室、武汉大学、商汤科技联合团队研究成果Planning-oriented Autonomous Driving（以路径规划为导向的自动驾驶）最终脱颖而出，获CVPR 2023最佳论文奖（Best Paper Award）。

（划重点）要知道这个国际奖项已经颁了40年，但以自动驾驶为主题的论文获奖可是第一次！

另外参与CVPR评选需要和全球各地的顶尖学者来一套“过五关斩六将”，拿了这个奖堪称为国争光（进度条：已击败全球99.99%学者/学术机构）！

平复激动的心情，接下来咱们就聊聊这个获奖的事儿。

首先这个颁奖机构用一个词来形容，就是顶级（到能让一个研究生原地毕业）。

CVPR一年举办一次，是计算机视觉领域的全球级会议。要想知道一个会议有多少含金量，看业内人的关注度就懂了，CVPR的隆重程度：从1983年开始，每年吸引着全球各地的学术大牛们来参与，近几年投稿量都近万篇，即使这些天之骄子总是第一轮就会被刷掉3/4。

当然这可不是什么镀金的手段，这个会议凭借着高质量和低成本，它为众多研学者提供着教科书般的行业价值。目前在中国计算机学会推荐国际学术会议的排名里，CVPR为人工智能领域的A级会议。

除了水平认证，CVPR回报给这些学者们最重要的是尊重和公平。在初次筛选中，评审们给出的选择不是通不通过，而是细致到“非常接受”、“接受”、“差不多”、“拒绝”、“非常拒绝”。

同时评审们不属于CVPR机构组织，对手里的稿件都是盲审。最关键的是，稿件不允许出现任何能显示作者信息身份的元素（怀疑定这个规矩的人参加过我们语文高考）！所以评审们和作者都不知道彼此是谁！因此，最后脱颖而出的作品都是用实力经过细审，没什么运气的成分。

话说咱们国内智能车现在发展的如火如荼，也不知道当时有没有评审猜中过这篇论文的归属地。话不多说，接下来咱们就来看看这篇论文是靠什么获得国际认证的。

我们人类开车时的思路通常是“堵车了，我得刹停”，而自动驾驶车的思路则是“感知前方障碍物的时速和距离、系统算法判断场景需求决定刹车、牵动制动系统”。显然，如果自动驾驶系统将流程整合起来会带来更丝滑、BUG更少的体验。

这篇以自动驾驶为主题的论文就是从此角度切入问题，核心在于首次提出感知决策一体化的自动驾驶通用大模型UniAD。UniAD将检测、跟踪、建图、轨迹预测，占据栅格预测以及规划，整合到一个基于Transformer的端到端网络框架下。

不用觉得复杂，我们挑取2个重点词“检测”、“规划”，也就是说这个框架在环境中可以直接给出相应的指令。

UniAD将各任务通过token（最小单位）的形式在特征层面，按照感知-预测-决策的流程进行深度融合，使得各项任务彼此支持，实现性能提升。在nuScenes数据集的所有任务上，UniAD都达到 SOTA 性能。

融合五大核心模块，解决自动驾驶“规划”难题

为什么之前的自动驾驶系统做不到呢？

现有的自动驾驶系统可大致归为三类：

（a）模块化组成的系统；

（b）多任务模块架构的系统；

（c）端到端自动驾驶系统。

其中传统的端到端算法可分为：

（c.1）基础的端到端算法，直接从传感器输入预测控制输出，但是优化困难，在充满复杂视觉信息的真实场景中应用面临较大挑战；

（c.2）按照任务划分网络的显式设计，但是网络模块之间缺乏有效的特征沟通，需要分阶段的输出结果，任务间缺乏有效交互。

（c.3）这篇论文里提出的决策导向的感知决策一体设计方法，用token特征按照感知-预测-决策的流程进行深度融合，使得以决策为目标的各项任务指标一致提升。

最为常见的是模块化组成的系统架构，或者部分模块组成多任务架构，他们都以优化部分性能为核心，比如检测性能（检测准确度）、预测性能（预测准确度）。

以上一些算法的BUG总结起来其实就是流程琐碎，一损俱损。这和当下智驾方案都急着摆脱高精地图的原因有点类似。毕竟依赖高精地图的话，哪怕硬件、算法再好，只要地图有偏差，整套方案直接崩盘。所以大家都在做“简化和收纳”。

而端到端自动驾驶系统，以UniAD自动驾驶通用大模型为代表，将检测、跟踪、建图、轨迹预测、占据栅格预测以及规划五大模块融合，以最终的驾驶性能为目标，从解决实际问题出发，例如提升规划出来的车辆行驶轨迹的安全性。

现在行业中大多数端到端（End-to-end，E2E）的自动驾驶系统，由于没有很好的网络框架来融合全部五大模块，都只能融合部分模块。

UniAD通过将环视的图片以Transformer映射得到BEV的特征，同时进行目标的跟踪，在线的建图，包括目标轨迹的预测，还有障碍物的预测，最终实现驾驶行为。环视一圈，现观察现预测，然后决定怎么行动，听起来是不是有人类开车的味儿了？

据商汤科技联合创始人、首席科学家王晓刚表示，UniAD可以做到“多目标跟踪准确率超越SOTA 20%，车道线预测准确率提升30%，预测运动位移误差降低38%，规划误差降低28%。”

下面展示了UniAD在数据集nuScenes上多个复杂场景下的优势。

UniAD 感知到左前方等待的黑色车辆，预测其未来轨迹（即将左转驶入自车的车道）和未来的occupancy，推算继续前行有碰撞风险，并立即减速以进行避让，待黑车驶离后再恢复正常速度直行。

得益于 UniAD 的地图分割模块与规划模块的深度交互，规划模块基于道路信息作出判断，向前行驶时依据道路结构适时地转弯。

在视野干扰较大且场景复杂的十字路口，UniAD 能通过分割模块生成十字路口的整体道路结构（如右侧 BEV 图中的绿色分割结果所示）和周围车辆的轨迹，由基于注意力机制的planner完成大幅度的左转。

在夜晚视野变暗的情况下，由于需要继续直行至下个路口左转，UniAD 能感知到前车停止且左右均有障碍物，所以先静止，待前车行驶并再前行并左转。

虽然现在自动驾驶的目标还是赶紧追上人类，但是不得不说有些场景中大模型观察环境比我们都更加全面细致，以下案例，展示了UniAD在国内真实场景的实际演示效果。

在拥堵路段上，UniAD能感知到前方大车的停车和启动状态，做出相应的减速和加速决策，保持足够的安全距离。

得益于地图重建任务，UniAD在路口和曲折道路上，也可以做出符合道路曲率的路径规划。

自动驾驶多模态大模型发展和落地

在学术圈大家都认这么一个理儿：不能落地的论文得再好的奖也没有价值。这篇《以路径规划为导向的自动驾驶》用几千字提出了UniAD 这项自动驾驶技术，为产业发展拓展了一个新的方向。实际上，它的创造者已经在努力将这些价值落地了。

作为创作者之一的商汤科技，一直致力于自动驾驶技术领域的研究和发展布局。例如在今年上海车展上，商汤展示了广汽埃安AION LX Plus、哪吒S等车型搭载商汤绝影智能驾驶方案的落地成果。

王晓刚将这些成果归功于商汤持续建设打造“大模型+大装置”技术路径，以及在自动驾驶行业长期深耕的积累与实践，并表示未来将沿着多模态大模型的道路，去进一步推动自动驾驶的进步。

所以这篇论文不只是学术上一次舌战群儒的胜利，更关键的是它将成为自动驾驶大漠台多模型落地的标志，继续发挥它的应用价值，去推动实现更高阶的自动驾驶人工智能。期待国内自动驾驶行业再次实现击败全球99.99%对手的进度条！

推荐内容

学术界圣地，给国内自动驾驶一席之地了！

今日精选：蔚来手机配备的UWB技术，苹果、小米几年前就应用了

前微软开发人员成功为 Surface Duo 适配 Android 13 系统

世界微头条丨查德利·阿姆里_关于查德利·阿姆里概略

wcba官网直播_wcba官网 每日聚焦

超越米13？Redmi也有视觉四等窄直屏 | 鸿蒙4.0来了 Beta版开启招募|全球快看点

【新机】Redmi K60至尊版外观曝光 质感大提升 还有汝窑天青色？ 焦点热文

折叠屏比直板手机都便宜！moto razr 40即将开卖：3999元

学术界圣地，给国内自动驾驶一席之地了！ 全球新视野

前微软开发人员成功为 Surface Duo 适配 Android 13 系统

FTC将申请禁令阻止微软收购动视暴雪_天天短讯

迈巴赫EQS SUV国内实拍！年内上市 售价或超200万

能PK英特尔10代酷睿的国产CPU，四季度推出，替代intel/AMD?

全新 Windows 版网易云音乐上线，基于 Electron 开发|全球热文

华硕新款无畏二合一笔记本开始上市，搭载 N305 处理器 + OLED 屏

超越米13？Redmi也有视觉四等窄直屏 | 鸿蒙4.0来了 Beta版开启招募 速读

环球看点！折叠屏比直板手机都便宜！moto razr 40即将开卖：3999元

美国政府被起诉！美军燃油泄漏致数千人患病

活证佛菩萨示现

华硕新款无畏二合一笔记本开始上市，搭载 N305 处理器 + OLED 屏 热点评

《昆仑劫》新服“异界351服“6月23日开启

脚踝肿是怎么回事_脚踝肿是什么事|快播

微软Windows Hello 改版，选择是否要继续使用你的面部或指纹登录

单条 48GB 笔记本 DDR5 内存开始上市，售价 1180 元

环球通讯！Avolon与空客签署谅解备忘录 承诺订购20架A330neo

RNG对阵EDG赛前返图：“一往无前” LP交手Uzi面色凝重 焦点日报

Redmi K60 Ultra关键参数敲定：1.5K直屏+天玑9200+芯片 天天消息

MIX Alpha续作要来了？小米要靠“环绕屏”强化折叠屏存在

能PK英特尔10代酷睿的国产CPU，四季度推出，替代intel/AMD?

焦点快看：太恶心了！这8种东西很脏你可能天天用：赶紧扔

包粽子做香囊，武汉花山杏园社区举行端午民俗文化节|环球热议

每日热闻!比前代高出16.24%，24核苹果M2 Ultra处理器现身PassMark跑分库

【世界速看料】截图显示苹果 Vision Pro 头显可启用来宾账号

当前头条：2023辽阳市万人徒步大会暨沈阳现代化都市圈第三届徒步大会通告

【天天播资讯】鹤城区：粽香迎端午 清廉入心田

通讯！苹果iOS 17让用户使用Siri发消息更方便，可提前指定应用

苹果颠覆性操作系统来了！visionOS Beta版上线

科学家提出新型光纤成像系统，实现彩色图像的高质量传输_全球时讯

港媒：欧洲电信业反对移除华为设备-环球聚看点

苹果同时发布 iOS 17 beta2、iOS 16.5.1、iOS 15.7.7 系统 世界今头条

港媒：欧洲电信业反对移除华为设备

第六章 长期股权投资与合营安排1.3 全球观热点

pt999铂金回收价格今日多少钱一克（2023年06月22日）-天天快播报

微资讯！36张图，带你看遍整个端午

华师团队设计可穿戴柔性传感器件，可实现三维空间内的运动识别

环球速看：苹果Vision Pro 头显预装应用一览：暂无计算器、天气和时钟应用

【报资讯】刚刚，央行宣布！下调！

没看过宋轶这两张照片的都输了！ 世界快资讯

世界微动态丨苹果屏下 Face ID 新专利获批，展示多种设计方案

全球科技重新大洗牌，欧盟离不开华为，斥资寻求6G研发布局

wcba官网直播_wcba官网每日聚焦

【新机】Redmi K60至尊版外观曝光质感大提升还有汝窑天青色？焦点热文

学术界圣地，给国内自动驾驶一席之地了！全球新视野

迈巴赫EQS SUV国内实拍！年内上市售价或超200万

超越米13？Redmi也有视觉四等窄直屏 | 鸿蒙4.0来了 Beta版开启招募速读

华硕新款无畏二合一笔记本开始上市，搭载 N305 处理器 + OLED 屏热点评

环球通讯！Avolon与空客签署谅解备忘录承诺订购20架A330neo

RNG对阵EDG赛前返图：“一往无前” LP交手Uzi面色凝重焦点日报

Redmi K60 Ultra关键参数敲定：1.5K直屏+天玑9200+芯片天天消息

【天天播资讯】鹤城区：粽香迎端午清廉入心田

苹果同时发布 iOS 17 beta2、iOS 16.5.1、iOS 15.7.7 系统世界今头条

第六章长期股权投资与合营安排1.3 全球观热点

没看过宋轶这两张照片的都输了！世界快资讯