自己的原文哦~ https://blog.51cto.com/whaosoft/11707335
#Text2LiDAR
文本引导的无条件点云生成新SOTA
论文题目:《Text2LiDAR: Text-guided LiDAR Point Cloud Generation via Equirectangular Transformer》
论文地址:https://arxiv.org/pdf/2407.19628
代码地址:https://github.com/wuyang98/Text2LiDAR
一句话概括
本文探索了一种文本引导激光雷达点云生成的Transformer框架,以序列到序列的方式,利用等距圆柱投影注意力机制在KITTI-360和nuScenes数据集上取得了优异的无条件生成和文本引导生成点云结果。
图1 本文方法与此前方法概要对比,(a)为此前以U-Net为代表的卷积框架,缺乏对等距圆柱投影图像的适配也不利于可控性拓展;(b)为我们提出的Transformer框架,适配等距圆柱投影图像的同时便利了控制信号的嵌入
摘要
复杂的交通环境和多变的天气条件使得激光雷达数据的收集既昂贵又困难。实现高质量、可控的激光雷达数据生成十分有必要,而对文本控制的激光雷达点云生成的研究仍然不足。为此,本文提出了Text2LiDAR,这是第一个高效、多样化且可通过文本控制的激光雷达数据生成框架。为了提升文本控制生成性能,本文构建了nuLiDARtext,它为850个场景中的34,149个激光雷达点云提供了多样化的文本描述符。在KITTI-360和nuScenes数据集上的实验展示了本文方法的优越性。
背景
1.为什么需要生成激光雷达数据?
- 本领域中激光雷达点云数据怎么表示?
3. 实现文本引导生成激光雷达点云主要面临两项挑战
(1)目前本领域没有专门为等距圆柱投影图像和文本设计的生成框架。与目标级别的点云不同,户外的激光雷达点云更加的不规则和稀疏。在涉及到自动驾驶场景的激光雷达点云处理时,相关工作[1,2,3]往往会将激光雷达点云投影为等距圆柱投影图像以缓解激光雷达点云的不规则性和稀疏性。在此基础上,Nakashima等人[4,5]将真实数据中的激光点的缺失现象纳入考虑,并设计了GAN网络来生成数据。为了进一步提升生成数据的真实性,如图1(a)所示,LiDARGen[6]和R2DM[7]设计了以U-Net去噪结构的扩散模型,然而在卷积方框中提取特征的方式破坏了等距圆柱投影图像的环形结构,稀释了像素间的关联。同时,卷积框架的可拓展性有限,在适配来自不同模态的控制型号时,很不方便且效率低下。此外,一些现有的方法也忽视了等距矩形投影图像中的高频信息与点云目标结构之间的对应关系。这些都促使我们去探索一个统一的可控生成结构,使其能与等距矩形投影图像和多模态信号兼容。
(3)现有的数据集没有提供高质量的文本-激光雷达点云数据对[8, 9, 10, 11]。高质量的文本描述词不仅需要描述激光雷达点云中存在的目标,更需要描述天气、光照、环境结构等关键信息,这些辅助信息的利用可以明显的提升点云生成的质量,如图1(b)所示,这些信息共同构成了一帧相对完善的自动驾驶场景的激光雷达点云数据。如何构建高质量的文本-单帧激光雷达点云数据也是一个需要解决的问题。
方法
图2 本文方法流程
为了解决以上提到的两项挑战,我们提出了Text2LiDAR,这是一个Transformer结构,可以更好地适配等距圆柱投影图像的环状特性,保持任意像素点之间的关联性。得益于序列到序列的特征处理方式,Text2LiDAR可以很便捷地增删多模态控制型号。此外,本文构建的nuLiDARtext在nuScenes的基础上为激光雷达点云提供了丰富且合理的文本描述词,可以更好地促进文本控制的激光雷达点云生成。
如图2所示,我们的Text2LiDAR具体计算流程如下:
首先,我们对正常激光雷达点云添加噪声得到了扰动的雷达点云(Perturbed LiDAR)输入,然后将其送进等距圆柱投影Transformer中进行无条件的噪声预测或在文本信息引导下的噪声预测,经过处理后的输出特征再送入频率调制器(Frequnency Modulator)用于自适应频率调制,最后输出就得到了预测噪声(predicted noise)。在数据生成时,我们可以通过对纯噪声的逐步去噪得到了我们最后生成的雷达点云图。
接下来,我们分别介绍流程中关键的四个组成部分:
1. 等距圆柱投影Transformer (Equirectangular Transformer Network)
图3 等距圆柱投影Transformer结构图
在此部分本文设计了如图3所示的等距圆柱投影注意力(EA)适配等距圆柱投影图像。首先,本文利用自注意力适应等距圆柱投影无边界的特性。其次,本文利用傅里叶特征,并将高度角和方位角扩展为二的幂的频率分量。这保留了3D先验,同时放大了邻近位置之间的差异,有助于模型更好地学习。接着,本文使用相互重叠的展开方式,将输入序列在不同阶段切割成不同尺度,强化局部建模,这个过程可以表述为:
在解码部分,本文设计了反向等距圆柱投影注意力(REA)进行上采样,允许持续捕捉全局到局部的关系。为了更好地恢复对象细节,本文引入了编码阶段的特征。同时,为了增强嵌入对模型的引导,本文在每个上采样阶段使用设计好的控制信号嵌入注入器(CEI)来提供控制。通过四个阶段的上采样,本文可以将标记序列上采样到高分辨率,与输入尺寸相匹配。
这个过程可以写成:
其中,是文本嵌入向量,是时间步嵌入向量。
2. 控制信号注入器(Control-signal Embedding Injector)
图4 控制信号注入器结构图
3. 频率调制器(Frequency Modulator)
图5 频率调制器结构图
扩散模型总是倾向于首先恢复低频信息,然后逐渐恢复高频信息,本文设计了一个频率调制器(FM),允许模型自适应地专注于高频信息。其过程主要包含离散小波变换(DWT)、由卷积组成的频率门控函数(FG)和逆离散小波变换(IDWT),可以描述为:
4. 构建nuLiDARtext
图6 nuLiDARtext中描述词的出现频次
nuScenes数据集中的文本描述旨在描述短时间内的场景,并没有特别为激光雷达数据配对。为了节省资源和成本,本文在现有的nuScenes数据集上构建了适用于单帧激光雷达点云生成的文本描述词,描述词的出现频次如图6所示,通过提供路况、光照、天气等更全面的描述词,文本才能更准确地描述出一帧自动驾驶场景的激光雷达点云数据,从而引导更符合实际的数据生成。
实验结果
在无条件生成时,本文方法与当前领先的方法就行了对比,展现了优异的性能:
表1 本方法与先进方法无条件生成结果在四个指标上的对比
本文方法在激光雷达点云稠密化任务上也能取得不错的效果,针对远处的小目标的补全效果更佳:
图7 本方法与先进方法的点云稠密化可视化对比
在文本控制激光雷达点云生成时,也有有趣的结果,除了对大目标和小目标有一定的区分能力,本文方法可以很好地生成受天气影响时的针对性数据,例如雨天激光雷达光束随着距离增加逐步丢失的特性得到了很好地体现,在图9中对雨天数据生成进行了更多展示。
图8 本方法文本引导的生成结果可视化展示
图9 本方法文本引导的雨天场景生成结果可视化展示
自动驾驶视觉相关 开发板商城 天皓智联 TB上有视觉设备哦 支持AI相关~ 大模型相关也可用~
.
#智能驾驶域控制器
汽车智能驾驶功能持续高速渗透,带来智能驾驶域控制器市场空间快速增 长。智驾域控制器是智能驾驶决策环节的重要零部件,主要功能为处理感知 信息、进行规划决策等。其核心部件主要为计算芯片,英伟达、地平线等芯 片厂商市场地位突出。随着消费者对智能驾驶功能需求的不断提升,基础L2 功能成本下探,中低算力方案搭载率快速增长;头部厂商智驾水平持续提升, 城市NOA覆盖范围扩大,高算力域控产品需求同样旺盛。BEV+Transformer 的广泛应用也使得智驾域控的算力提升和结构变化。
智能驾驶功能渗透率快速提升。智能驾驶功能渗透率仍处于较低位置, 提升空间较大。随着技术快速成熟、产品价格逐渐下降及用户智能化体 验需求的不断提升,智能驾驶功能正逐渐从豪华车向中低端车型发展, 渗透率快速提升。智驾功能的性能和搭载率的提升将带动智驾域控制器 的需求快速增长。 智能驾驶域控制器为整车计算中心。智驾域控制器主要包括计算芯片、 Safety MCU、存储芯片及其他无源器件等。其中计算芯片主要用来进行 摄像头图像处理、运行深度学习算法、输出识别结果、进行传感器融合 和轨迹预测等功能,是决定智驾域控性能的核心部件。智能驾驶芯片具 有较高的技术壁垒,现阶段市场高端芯片以英伟达、华为为主,中低端 芯片厂商较多,主要包括地平线、Mobileye、TI、黑芝麻智能等。各主要 芯片厂商积极拓宽产品矩阵,国产芯片市占率持续提升。与主要芯片厂 商建立稳定的合作开发关系的智驾域控供应商有望受益。
芯片开发和生产制造能力仍为核心竞争力。随着BEV+Transformer 的应 用,智驾功能对车端算力要求更高,加上城市NOA及后续L3功能的搭 载,高算力芯片仍为头部主机厂中高端车型首选方案。智驾域控仍以国 内Tier 1 厂商为主,虽然头部主机厂自研域控意愿较强,但受限于相关研 发积累、资金限制及自身销量等问题,自研难度大、成本高,不一定有 足够的销量来摊薄前期研发成本。目前L2及以上智驾域控以国内厂商为 主,产品布局全面、芯片开发设计实力强、量产制造能力丰富、出货量 较大的供应商具备一定竞争优势。
L2 级智能驾驶功能渗透率快速提升
L2 级智能驾驶功能渗透率快速提升 2021 年8月,工信部提出《汽车驾驶自动化分级》推荐性国家标准。《标准》按“是否存在设计运 行范围限制”等六要素对驾驶自动化等级进行划分。其中L2级自动驾驶关键配置有ACC自适应巡 航、AEB 主动刹车、LKA车道保持等,实现一定程度上的车辆主动控制。L3级自动化系统应该具 备在其设计运行条件下持续地执行全部动态驾驶任务的能力。由于L2至L3的跨度过大,经历时间 较长,业内为区分不同系统的智能化程度,额外划分出L2+级别,主要包括NOA等功能,可实现高 主动的辅助驾驶功能,但仍需驾驶员监督。
国标驾驶自动化等级与划分要素的关系
从功能上看,智能驾驶功能经历从单车道向多车道再向 NOA 发展的过程。
早期辅助驾驶功能集中 在单车道里,以车辆前后的控制为主,重点实现跟车不碰撞、驾驶不偏移等效果,主要功能包括ACC (自适应巡航)、LCC(车道居中控制)、TJA(交通拥堵辅助)、CCS(定速巡航)、AH(自动 驻车)等。随着技术的不断推进,辅助驾驶逐渐开始涉及多车道场景,由系统可以控制车辆进行变 道,主要功能包括 ALC(智能辅助变道)、TJA-ML(多车道交通拥堵辅助)、HWA-ML(多车道 高速驾驶辅助)。近年各企业向点对点控制推进,在选定目的地即可交由辅助驾驶功能进行控制, 主要为高速NOA及城市NOA功能。
智能驾驶功能渗透率仍处于较低位置,提升空间较大。
随着技术逐步走向成熟、产品价格逐渐下降 及用户智能化体验需求的不断提升,智能驾驶功能正逐渐从豪华车向中低端车型发展,渗透率快速 提升。据高工智能汽车数据显示,2023 年 1-6 月中国市场(不含进出口)乘用车前装标配 L2(含 L2+)辅助驾驶功能车型销售324.4万辆,同比增长37.7%,增速维持较高水平。前装标配搭载率为 34.9%,同比提升约8pct。其中,新能源汽车前装标配搭载L2(含L2+)交付新车147.1万辆,同比 增长75.6%,前装标配搭载率为50.4%,同比提升约10pct。智驾功能性能和搭载率的提升将带动智 驾域控制器的增长。拥有智能驾驶功能的车型中以域控架构为主,域控制器作为车端处理感知信息、 进行决策规划的重要零部件,用量有望随着智驾功能渗透率的提升而增长。
NOA功能逐步落地,成为智能化重要发力方向。自动辅助导航驾驶(NOA,Navigate on Autopilot) 主要分为高速NOA和城市NOA两类,在基础L2辅助驾驶功能的基础上,通过与地图导航等功能 结合,实现点到点的辅助驾驶功能。据高工智能汽车数据,2023年1~7月前装标配NOA车型交付 量26.3 万辆,同比增长120.4%。高速NOA为当前主机厂智驾推进目标之一。高速NOA场景相对简单,路况、标志和标记的图像相 对标准,相比城市NOA场景更为简单,推出进度相对更早。早期高速NOA融合高精地图,在部分 高速公路或高架等封闭路段行驶时,可以让车辆实现自动变道、自动进入和驶出匝道口的技术功能。但上下匝道需要高精地图和高精定位模块,成本较高。随着车企成本压力增加,高速NOA或将向简 化版方案发展,即舍弃上下匝道功能,仅在目标匝道前进行接管提醒,避免错过匝道等问题发生。城市NOA加速落地,覆盖主要行车使用场景,为用户提供从高速到城市的全场景可持续的自动驾驶 功能。早期城市NOA功能普遍使用高精地图,提供更精确的定位服务,但高精地图采集成本高、覆 盖率较低、更新慢,难以满足城市NOA快速大规模的上车需求。随着车端算力及传感器功能迭代升 级,单车感知水平不断提升,大部分厂商通过“轻地图”+单车感知方案,即仅在匝道口等导航地图 难以精确处理的部分做数据强化,实现NOA功能。
城市NOA主要功能
城市NOA功能快速铺开,应用城市逐渐普及。
随着大量车企向BEV+Transformer 的视觉感知路线 转换,逐步降低对地图的依赖,城市NOA功能具备了泛化推广的能力。根据相关公司规划,华为拓 展速度领先,预计在2023年年底前实现全国覆盖;其余企业覆盖城市也迅速扩张,小鹏宣布到 2023 年底扩增至 50 城,2024 年扩增至 200 城,力争做到城区领航辅助驾驶「全国都能用」;理想计 划在 2023 年底推送至 100 个城市。蔚来另辟蹊径,按通勤道路开通,计划2023 年Q4开通城区 领航路线里程 6 万公里;2024年Q2开通40万公里。
部分厂商城市NOA进度
自动驾驶标准逐步落地,L3合规加速推进。
2022年8月,深圳市正式施行《深圳经济特区智能网 联汽车管理条例》,对智能网联汽车定义、测试及示范应用条件、权责归属等问题进行了详细定义, 是全国首个对L3及以上自动驾驶权责、定义等重要议题进行详细划分的官方管理文件。2022 年11月,工信部发布《关于开展智能网联汽车准入和上路通行试点工作的通知(征求意见稿)》, 对智能汽车生产企业和产品以及试点上路通行做出了详细要求。2023 年7月,工信部、国家标准委联合发布《国家车联网产业标准体系建设指南(智能网联汽车)(2023 版)》,提出第一阶段到 2025 年,系统形成能够支撑组合驾驶辅助和自动驾驶通用功能的智能网联 汽车标准体系;到2030年,全面形成能够支撑实现单车智能和网联赋能协同发展的智能网联汽车标 准体系。随着国内自动驾驶标准体系和管理政策逐步细化落实,国内相关产业有望快速发展。
2020 年-2023 年中国自动驾驶主要政策整理
汽车消费升级趋势持续,智能化需求不断增加。
据乘联会数据显示,2023年前三季度 30万元以上 车型销量占比大幅提升,10万元以下车型销量减少。据高工智能汽车数据显示,23H1标配搭载L2 (含L2+)交付新车均价为26.6万元,相比2022年末提升1.5万元。智能驾驶功能在高端车型的渗 透率逐渐提升。随着消费者消费能力的提高以及消费观念的转变,消费者不再将汽车局限于简单的 出行工具,而是将其作为追求生活品质的载体之一,越来越重视汽车的用户体验及享受度的提升, 更加追求汽车的娱乐性、互动性、舒适性及安全性等功能,从而使得消费者对智能汽车的关注度日 益提高,加快汽车智能化发展的进程,使得智能汽车渗透率稳步提升,同时对汽车各类功能的丰富 度提出了更高的要求。
政策、需求和供给三方面推动,汽车智能化水平快速提升。随着新一代消费者比例逐步增加,智能 座舱、智能驾驶等个性化功能的需求越来越凸显。且越来越多的厂商开始重视用户体验,从车身设 计、智能化服务、自动驾驶功能等多角度提升用户驾乘感受。同时,车辆本身也已经从代步交通工 具向智能移动空间转变,车辆数字化转型已成行业共识。随着用户智能化体验需求的不断提升、政 策的持续推进、行业的高度重视,汽车智能网联技术发展迅速。
NOA功能预计有望快速渗透。
目前NOA处于高速发展阶段,随着软件算法逐步升级技术逐渐成熟、 感知方案向重视觉感知路线转换成本降低,NOA功能具有向低价格带车型拓展、应用场景不断丰富 等特点。根据高工智能汽车研究院监测数据显示,从当前搭载NOA功能车辆价位来看,标配NOA 领航功能的车型大部分集中在30万以上价格区间,而小鹏P5、吉利博越L、宝骏云朵灵犀版等20 万以下的车型也开始逐渐实现NOA的搭载。我们预计NOA未来将逐渐成为中高端车型标配,同时 扩大搭载范围,下探到10~15万左右的车型。我们预计明年10万以上车型将可以选配高速NOA;20万以上车型将会标配高速NOA,选配城市NOA;30万以上车型将会实现城市NOA普及。
特斯拉坚定拥抱重视觉感知方案。
2018年,特斯拉视觉感知路线通过2D 图像+ CNN卷积神经网络 路线实现智能驾驶功能,对于图像的标注主要依靠人工标注,于2019年采用一部分自动标注来提升 标注效率。该阶段聚焦在2D图像处理,将图像处理完后拼接成single trip,实现时间的多帧融合。该方式对图像的处理属于规则算法,通过IPM将2D图像坐标进行计算,转换到3D空间中。但2D 图像处理在处理三维世界中的感知问题仍会有较大问题,如路面不平、车辆颠簸等问题都会影响到 转换的准确度。2020年特斯拉转向BEV方案,并将CNN神经网络转向Transformer。先在BEV空 间层中初始化特征,再通过多层Transformer 和 2D 图像特征进行交互融合,得到BEV特征,避免 了视觉融合时导致的误差问题。BEV方案2020年重点关注路网的感知,2021年拓展到整个空间, 进行数据重建。
国内厂商向重视觉路线转变。
国内厂商早期以融合路线为主,通过高精地图+毫米波雷达+激光雷达 的多传感器方案进行感知,对于静态障碍物(如路网、井盖等)的感知主要依赖高精地图和激光雷 达,视觉主要用于动态障碍物(如车辆等)的识别。目前为了节省成本、增强自动驾驶功能泛用性, 头部企业向BEV+Transformer 的重视觉方案转型。
小鹏Xnet BEV算法架构
BEV+Transformer 的广泛认可导致智驾域控结构发生变化。智驾方案早期摄像头以前视为主,四周 主要靠毫米波雷达实现环视覆盖,较为广泛的方案为5R(Radar)1V(Video)、3R1V、1R1V、2R1V、 5R3V,支持的摄像头数量较少。同时路网信息主要依靠高精地图提供,视觉传感器以动态障碍物识 别为主,静态障碍物主要依靠激光雷达实现感知。但是BEV架构下,需要至少6~8个摄像头实现车 身周边感知(前后左右各一个,四角各一个),摄像头接口需求增加。同时由于取消高精地图,部 分定位模块可以减少或简化。由于大模型搭载,低算力芯片性能难以支持端侧部署,对芯片算力有 了更高的要求。域控芯片需要调整以适应Transformer模型。早期AI芯片主要会考虑对 CNN、Pooling 等的优化。但是 Transformer 的神经网络与原先差别较大,需要不同的算子进行支持。如果芯片不支持 Transformer 算子,会导致在GPU上训练时候用Transformer训练,但是部署在车端时候需要进行算 子转化,带来一定的困难,导致最终在端侧并不是BEV+ Transformer,而且近似CNN的替代算法。目前头部芯片厂商如地平线、英伟达等已经实现对 Transformer 算子的支持,后续部分厂商需要将 BEV+ Transformer 下放到端侧。
特斯拉Model 3传感器配置
感知方面,感知重心向视觉传感器转移。智驾系统向BEV+Transformer转型后,低成本的视觉 传感器更为重要,为保证数据获取的精确度和完整度,摄像头的像素和数量也不断增加,800 万像素摄像头使用量逐渐提升,摄像头数量也向单车 10个以上发展。毫米波雷达和激光雷达 短期内仍难以替代。由于国内使用Nerf进行多帧重建仍有待提升,故需要激光雷达或4D毫米 波雷达获取路网数据,进行车道线识别。此外,由于纯视觉系统对于暗光环境和非标准物体等 场景的识别准确问题仍无法完全解决,通常需要4D毫米波雷达进行静态障碍物识别。我们预计摄像头和4D毫米波需求有望增长。
Mobileye 4D 毫米波雷达点云效果近似4线激光雷达
相比基础的L2功能,NOA功能对精度的要求更高,需要更精确的感知,对计算量的要求也更高。虽然BEV感知在低算力(如8Tops)芯片上可以运行,但是一方面感知精度相比于中高算力芯片要 低。另一方面算法方案上的选择也会有一些差别。高算力平台大都基于Transformer的carrier-based 方案;在低算力平台,更多是类似BEV Depth、BEV Det这种2D转3D的方式去实现。而且对于无 图或轻图的NOA功能,由于缺少已知的地图信息,域控需要处理更多的感知数据,对域控制器的算 力要求更高。随着智驾功能的发展,高算力芯片仍为头部主机厂中高端车型首选方案。智能驾驶域控硬件的核心 是其芯片的运算能力。随着各个厂商向重视觉感知的大模型技术路线转型,高级别智驾对车端算力 的要求越来越高,需要性能更强的芯片支撑。相比城市 NOA,L3 级智能驾驶对算力的需求更甚, 当前已量产芯片较难满足L3级智驾需求,芯片向更高算力发展的进程仍在持续。车企也需采用足够 强力的芯片进行算力 预埋,以支撑日后有效升级。针对未来L3级智能驾驶,主机厂需要进行冗 余设计,以保证系统安全。较为简单的设计是放置两个域控制器/增设备份芯片,智驾芯片需求量后 续有望提升。
整车E/E 架构快速演进。E/E架构的四个阶段分别是分布式架构阶段、域集中架构阶段、准中央计 算架构阶段及中央计算架构阶段。主机厂正加快推进电子电气架构的演进,域集中架构阶段包括大 众 E3 架构、长城 GEEP3.0 架构等。中央计算平台+区域控制器的准中央计算架构阶段包括特斯拉 Model3、长城GEEP 4.0架构等。汽车E/E架构最终演进的方向是中央计算架构阶段,将功能逻辑均 集中到1个中央控制器,如长城计划于2024年推出中央计算架构GEEP 5.0,将实现全车只有一个 大脑,完全形成智能机器人,长安也计划于2025年完成中央域架构的开发。
汽车电子电气架构演进方向
分布式ECU架构各系统独立,系统复杂协同性差。分布式架构ECU为核心,多个ECU通过CAN 和LIN总线连接在一起,进行数据采集与交换,并通过执行器来操控汽车。在传统的分布式电子电 气架构中,每个控制系统都采用单独的 ECU,彼此之间均保持相对独立性,功能增加需要 ECU和 传感器数量的叠加。随着汽车智能化的发展趋势,功能越来越丰富和多样,导致单车的ECU数量激 增,安装成本也随之提高。同时不同ECU来自不同的供应商,每个产品的语言和编程风格各异,因 此功能的增加会导致大量的、不兼容的、风格各异的产品模块存在,难以进行统一的维护和升级, 协同困难巨大,无法满足汽车智能化革新的趋势和需求。
DCU成为新的电子电气架构的核心。DCU(域控制器)将功能相似且分离的ECU功能集成整合起 来,解决了分布式E/E架构存在的诸多问题。根据博世汽车电子部件功能分类,将整车划分为动力 域、底盘域、座舱域、自动驾驶域、车身域五个域,每个域的系统架构由域控制器为主导搭建,利 用处理能力和算力更强的中央计算机相对集中地控制每个域,以取代分布式电子电气架构。
域控架构高度集成,有明显的成本和设计优势。1)线束数量显著减少,节约安装成本。DCU 通过 集成化的域控化管理,各个功能模块以区域内的域控制器为主导,减少了ECU的数量,从而降低了 线束的数量及重量,节省安装成本。2)整合集成度高,便于协同管理。各功能模块ECU软件通常 由其硬件供应商开发,导致系统之间相互独立,难以协调。DCU统一了软件开发和管理,加之数据 交互的接口标准化,降低了开发和制造成本。3)计算能力较高,便于OTA升级。模块越少、系统 越统一越容易实现整车OTA,域控制器更为集中的EEA架构将车内各个分散的ECU部件的控制功 能集成在一个DCU中,仅对DCU进行控制功能进行更新升级完成OTA,同时规避了各ECU的不 同传输协议和兼容性风险,减少了每个ECU进行安全性确认防篡改的工作量。
智能驾驶域控制器是汽车智能化发展的重要环节
智能驾驶域是E/E架构的重要组成部分。智能驾驶域是汽车智能功能的实现基石,智能驾驶域控制 器是智驾系统决策的中心。高级别的自动驾驶需处理来自摄像头、毫米波雷达、激光雷达、惯导等 的多种感知数据,需在短时间内完成整个运算和决策等,是推动L3及以上更高等级自动驾驶的核心 部件。
智能驾驶域控制器架构
智能驾驶域控制器结构相对复杂,核心在于计算芯片。硬件主要包括:1)计算芯片:主要用来进行 摄像头图像处理、运行深度学习算法、输出识别结果、进行传感器融合和轨迹预测等功能。2)Safety MCU:主要处理功能安全要求较高的数据,进行逻辑运算,包括处理雷达等对外接口数据、车辆规 控、通信等。3)存储芯片:对数据进行存储,包括eMMC、Nor Flash、Memory芯片等。4)其他:电阻电容等无源器件、散热组件、密封性金属外壳、PCB板、接口、网关、电源管理芯片等。软件 部分主要包括底层操作系统、中间层软件及上层应用软件。域控制器的硬件部分与ECU相似,最大 的区别在于域控制器的芯片算力更高、可以软硬解耦等,其多功能模块的实现主要依赖于主控芯片 以及软件部分的高度结合。
域控制器构成:硬件+软件
预计2025年自动驾驶域控制器市场规模达479.4亿元。我们预计智能驾驶域控制器价格将持续下降, 市场渗透率有望快速增长。1)随着智能驾驶的不断发展,智能驾驶域控制器有望高速渗透。2)目 前各个主机厂降本意愿较强,单芯片行泊一体方案受到各主机厂青睐。低成本方案如(单TDA 4/ J3 芯片)实现基础L2功能的方案预计有较大市场空间。经我们测算,2025年中国乘用车市场自动驾驶 域控制器市场将达到479.4亿元,2021-2025年复合增速达109.9%。
中国乘用车自动驾驶域控制器市场规模预测
计算芯片是智驾域控的核心部件
计算芯片直接决定域控性能。智驾域控制器主要承担汽车计算功能,其负责运算的模块主要是AI 芯片,故域控产品所使用的AI芯片的性能和数量直接决定其计算能力,目前CPU、GPU、DSP等 传统设计芯片仍是智驾域控选用芯片的主流,与此同时针对应用场景定制化或半定制化的FPGA、 ASIC等方案也在逐步发展。由于域控硬件需要算法的支撑调用,域控厂商与芯片厂商的合作开发、 生态共建同样重要。其好处在于与主流芯片厂合作紧密的域控厂商可以率先拿到先进芯片样品进行 开发,在上下游协同和产品性能上具有先发优势;同时对原有主流芯片的开发经验有代际传承,更 有利于新品开发。
智能驾驶芯片壁垒较高,芯片厂商较为集中。智能驾驶芯片具有较高的技术壁垒,现阶段市场高端 芯片以英伟达、华为为主,中低端芯片厂商较多,主要包括Mobileye、TI、地平线、黑芝麻智能等。部分厂商也积极拓展产品矩阵,高通依托早期在座舱芯片积累的优势地位,推出智驾芯片拓展市场;英伟达推出Orin-N,算力70Tops,满足中低算力方案需求。芯片国产替代的趋势也愈加明显,地平 线等国产芯片厂商市占率不断提升。根据高工智能汽车《2022年度中国市场乘用车标配L2+NOA功 能智驾域控制器芯片方案市场份额榜单》,地平线市场份额排名第一,占比达49.05%,英伟达市场 份额排名第二,占比达45.89%,二者占比总和高达95%,德州仪器、Mobileye、华为市场份额分别 位列三、四、五,占比分别为2.69%、1.97%、0.41%。
部分国内外芯片厂商
英伟达依托积累多年的图形计算处理能力、GPU计算经验,布局智能驾驶芯片。
英伟达是全球最大的智能计算平台型公司,早期专注 PC 图形计算,后重点布局AI 领域,并在独立显卡、GPU等领域卓有成就。公司2006 年开发了基于 GPU 的「CUDA」平台,实现使用GPU进行通用计算功能。公司2015年进军车载计算SOC,主要提供计算芯片和相关开发工具。英伟达产品定位偏高端,性能表现出色,其推出的Orin芯片仍是目前已量产的最高性能的智能驾驶芯片。
英伟达汽车芯片算力
芯片方面,英伟达于2016年发布首款高级智能驾驶芯片Xavier,并于2020年实现量产。使用CPU (8核ARM 64架构)+GPU(Volta架构)+ASIC的混合技术路线,基于台积电12nm工艺,最高 算力达30Tops。Xavier 用于德赛西威IPU03域控制器上,搭载于小鹏P5、P7等车型。英伟达2019年发布Orin芯片,于2022年量产,目前仍为已量产的算力最高的智能驾驶芯片。Orin 采用7nm工艺,集成170亿个晶体管,可提供每秒254TOPS,内置第二代深度学习加速器DLA、 第二代视觉加速器PVA。出色的计算能力使得Orin目前仍为高级别智驾方案的首选芯片,蔚来Adam 超算平台搭载四颗DRIVE Orin芯片,最高可实现1016TOPS算力,理想L9、小鹏G9等多款车型均 搭载Orin芯片。
英伟达Orin芯片架构
Thor(雷神)芯片于2022 年发布,预计2025年量产,算力高达2000TOPS,是Orin芯片算力的8 倍,主要通过CPU(Grace)、GPU(Ada Lovelace)和处理 Transformer 模型的引擎(Hopper)实 现算力提升。同时Thor可以满足汽车多个场景的算力需求,包括智能驾驶、主动安全、智能座舱、 自动泊车、车载操作系统、信息娱乐等,预计可以实现座舱域和智驾域的融合域控制。
英伟达Thor芯片
软件方面,英伟达提供DRIVE工具链和技术支持,助力芯片高效开发。Drive 工具链包含了开发工 具包Cuda、TensorRT 等各种各样的算法库、全套工具链的车载操作系统Drive OS;自动驾驶中间 件Drive Works;包含感知、定位、决策三部分的全套软件栈Drive AV;主要进行可视化渲染、驾驶 员检测、人机交互等功能的Drive IX。
英伟达Drive工具链
地平线国内智能驾驶芯片领先供应商,由国际著名机器学习专家余凯博士于2015年7月创建;2017年12月,地平线即推出了首款 智能芯片征程1和旭日1;2019年8月,宣布量产中国首款车规级智能芯片征程2并于同年10月发 布新一代AIoT智能应用加速引擎旭日2;2020年9月,推出新一代高效能车载智能芯片征程3和全 新一代AIoT智能芯片旭日3;2021年7月,推出业界第一款集成自动驾驶和智能交互于一体的全场 景整车智能中央计算芯片征程5,单芯片算力达128TOPS。
地平线征程系列芯片产品
芯片产品布局广泛,覆盖低算力到高算力多款方案。地平线首款车规级芯片征程2于2019年8月量 产,可提供超过4TOPS算力,实现基于征程2的单目前视解决方案。征程3芯片算力达5TOPS,是 目前仍在低算力平台上广泛使用的芯片之一。据不完全统计,自2020年9月发布以来,J3累计获得 约10家主流车企、超过40款车型定点合作,先后搭载2021款理想ONE、奇瑞 瑞虎8 PRO、奇瑞 欧萌达OMODA 5、第三代荣威RX、哪吒U-II、哪吒GT、博越 L、深蓝S7、深蓝SL03等多款车 型。其中2021款理想ONE是全球首个搭载征程3芯片的量产车型,采用双J3方案打造辅助驾驶功 能,并搭载J2的NPU计算平台实现全车语音交互。2023年4月,地平线携手大陆集团打造基于单 颗征程3芯片的800万像素智能前视摄像头一体机,可以支持1V1R(1个摄像头1个雷达)、1V3R (1 个摄像头3个雷达)、1VXR(1个摄像头,多个雷达)等多种形态的产品,实现NOA导航辅 助驾驶功能并于深蓝SL03实现首发量产。
征程3芯片性能
征程5是地平线第三代车规级产品,可提供单芯片128TOPS算力,并支持至多16路摄像头、毫米 波雷达、激光雷达等多传感器感知、融合、预测与规划需求,支持如BEV等领先智能驾驶算法模型 的应用部署。基于单颗征程5芯片打造的行泊一体域控方案,能够支持超越同级配置的高性能行泊 一体功能,同时开放上层应用的差异化开发和软件OTA升级。目前,理想L8首发搭载了征程5芯 片,实现了高速NOA导航辅助、自动泊车、自动紧急制动等功能,同时征程L5也获得了比亚迪、 上汽大众、一汽红旗、长安汽车等车企定点,并搭载于理想L系列在售Pro、Air所有车型。
征程3芯片性能
软硬件协同布局,感知算法布局深入。地平线早在2021年发布新一代征程5车载智能芯片之时,就 推出了基于征程5的纯视觉BEV感知原型方案;2023年6月,在计算机视觉领域顶级会议CVPR 上提出“感知决策一体化”的自动驾驶通用大模型UniAD,建立了以全局任务为目标的自动驾驶大模 型架构,将检测、跟踪、建图、轨迹预测、占据栅格预测以及规划,整合到一个基于 Transformer 的端到端网络框架下,并将各项任务通过token的形式在特征层面按照感知-预测-决策的流程进行深 度融合,实现了自动驾驶系统算法性能的全面提升。
地平线为合作伙伴提供硬件参考设计及算法、基础中间件、工具链、开发平台等配套产品,助力芯 片的开发应用。天工开物 AI 芯片工具链具有“算法仓库”(包括产品级算法、基础算法和产品参 考算法三类算法资源)、“芯片工具链”(包括量化训练工具和浮点定点转换工具)、“应用开发 中间件”(包括XStream和XProto两套应用开发框架)三大功能模块,包含模型后量化、量化训练、 编译优化和部署三大核心能力,其主要作用在芯片端,可为开发者提供从模型获得至应用部署的全 流程支持。艾迪AI开发平台则主要作用在云端,为AI开发者提供数据标注、训练、优化、部署、 管理与性能分析等工具,实现模型算法的优化与迭代;智能驾驶应用开发套件TogetherROS·Auto则 服务于智能驾驶专业开发者,集开发、集成、验证三位一体,提供支持量产开发的分层框架与接口 协议,开发者可基于标准化框架与接口进行灵活适配,同时整套接口与协议面向量产全流程,兼顾 各个软件模块,做到了可兼容、易转化,能够快速提升应用集成和验证效率,方便各模块开发者高效协作。
高通:座舱芯片领军者,智驾领域新拓展,2020 年1月,高通发布自驾平台Snapdragon Ride,其主要面向三大细分方向:L1/L2级ADAS,面 向具备AEB、TSR 和 LKA等驾驶辅助功能的汽车,提供30TOPS算力;L2+级ADAS,面向具备 HWA、自动泊车APA以及TJA功能的汽车,提供60~125TOPS算力;L4/L5级自动驾驶,面向在 城市交通环境中的自动驾驶乘用车、出租车和物流车,可提供700TOPS算力。2023 年 1月高通发布第二代Ride升级版Ride Flex芯片,包括Mid、High、Premium三个级别,主 打舱驾一体,既能用于车内座舱,又可以实现辅助驾驶的可扩展系列SoC,算力最高可达2000Tops。其从设计之初就是一个开放且可编程的平台,能够满足从新车评价规范(004ECAP)到 L2+/L3级别 驾驶辅助和自动驾驶全方位的需求。同时,面向视觉、中央计算和高性能自动驾驶需求,Ride Flex 还提供可扩展SoC处理器和加速器产品组合,基于Arriver的一站式视觉软件栈,支持从单个摄像头、 800 万像素前置摄像头,一直到多达11个摄像头的解决方案,其支持主机厂和Tier1利用Arriver驾 驶策略解决方案打造自己的驾驶策略、泊车或驾驶员监测软件栈和导航功能。
生态合作方面,宝马集团、长城汽车、通用汽车、大众集团、雷诺集团、Stellantis集团、阿斯顿·马 丁、吉利汽车、比亚迪汽车、沃尔沃汽车、梅赛德斯-奔驰、极星等整车厂商都与高通达成了合作, 采用Snapdragon Ride 平台打造ADAS和AD解决方案,并且国内首个搭载Snapdragon Ride的车型 魏牌摩卡DHT-PHEV激光雷达版已实现量产上市。不止整车厂,均联智行、毫末智行、畅行智驾、 纵目科技、诺博科技、德赛西威等Tier 1厂商也在与高通持续协作,基于Snapdragon Ride平台,共 同为下一代汽车开发安全、高效的ADAS/AD系统。
Mobileye 是全球领先的智能驾驶芯片解决方案提供商。2004年公司发布了第一代芯片EyeQ1,随后 迅速与宝马、通用等汽车制造商达成合作。经过多年的发展,Mobileye相继推出了Eye Q1-Q6等多 款ADAS芯片,并为OEM厂和Tier 1厂商提供了“芯片+算法”软硬一体化的ADAS视觉解决方案。Mobileye 智驾方案为“黑盒”方案,提供软硬一体的交钥匙方案,不单独出售芯片或算法。虽然黑 盒方案定制化程度极为有限,但对于开发实力相对薄弱的中小主机厂来说,产品成本低、开发周期 短,且多数功能经过验证,因此Mobileye的“黑盒”模式仍具有一定受众。此外,Mobileye也在一 定程度上逐步提高其编程开放性,2022年6月新推出的EyeQ Kit从黑盒走向合作,能够大幅降低车 企的开发成本,加快下游产品的开发周期。
芯片领域,EyeQ系列芯片目前已推出多代产品,算力由最初的不足1TOPS到176TOPS,其中EyeQ Ultra 作为公司的最新产品,计划2025年开始量产。Mobileye于2016年发布EyeQ5芯片,并与2021 年开始量产,搭载车型为极氪001和宝马iX。芯片基于台积电7nm FinFET工艺,EyeQ5 High可实 现15TOPS算力,EyeQ5 Mid也可超过4TOPS。EyeQ5采用专有的计算内核,针对包括深度神经网 络在内的各种计算机视觉、信号处理和机器学习任务进行了优化。同时,EyeQ5 开始提供完整的软 件开发套件(SDK),允许客户通过在EyeQ5上部署算法来区分其解决方案。作为可扩展的纯视觉 感知摄像头的计算基础,EyeQ5 由多个独立的计算机视觉引擎和用于算法冗余的深度网络组成,可 实现端到端的自动驾驶,这也是业内首个支持120度800万像素摄像头的解决方案。2022 年 1月在国际消费电子展(CES 2022)上,Mobileye连续发布EyeQ Ultra\EyeQ6 L\EyeQ6 H 三款芯片,并计划于2024年、2025年开始量产EyeQ6两款芯片和EyeQ Ultra。EyeQ Ultra是专为 端到端自动驾驶而打造的单封装自动驾驶汽车集成芯片超级计算平台,基于5nm制程工艺,算力达 176TOPS。EyeQ 6 芯片基于台积电7nm FinFET工艺,最高可实现34TOPS算力。EyeQ6 Lite是一种经过优化的一体式前风挡解决方案,旨在以较低功耗和高效率提供入门级和高级驾驶辅助系统 (ADAS)功能。同时宣布的EyeQ6 High将支持高级驾驶辅助系统功能,并具有可扩展到“视线脱离/解放双手”的控制功能。
芯片开发和生产制造能力仍为核心竞争力
厂商加速布局,智驾域控制器厂商竞争激烈 域控制器设计生产合作模式多样。目前,域控制器设计生产主要包括主机厂委托代工域控制器、Tier1 供应商为主机厂提供域控制器生产、Tier1.5主攻域控制器基础软件、Tier0.5全栈参与四种模式。具体来看:模式一:主机厂委托代工域控制器。该种模式下域控制器的设计和研发由主机厂负责,而供应商负 责域控制器的硬件制造,即外包域控制器,如特斯拉由广达及和硕进行域控制器代工、蔚来由Wistron 及伟创力代工。模式二:Tier1供应商为主机厂提供域控制器生产。该种模式是目前主流的业务模式,不同类型的企 业根据自身优势进行分工合作,芯片供应商、Tier1供应商和主机厂深入合作,芯片商提供芯片、开 发软件栈和原型设计包,Tier1提供域控制器硬件生产、中间层以及芯片方案整合,如德赛西威与英 伟达及小鹏/理想/智己深入合作、极氪与Mobileye及知行科技达成合作等。模式三:Tier1.5 主攻域控制器基础软件。该种模式下 Tier1.5 连接产业链上下进行开发,能够适应 软硬件分离的趋势,向上支持主机厂掌控系统的自主开发权,向下整合芯片、传感器等Tier2的资源, 如TTTech与上汽旗下联创汽车电子合资成立的创时智驾等企业。模式四:Tier0.5全栈参与。该种模式下供应商与主机厂深度绑定,参与主机厂域控制器的研发、生 产、制造等环节。
国内外厂商纷纷布局智能驾驶域控制器领域。现阶段,智能驾驶域控制器参与者主要包括四类:1.Global Tier1 供应商系统集成能力较强,具有客户群优势。2.本地Tier1供应商致力打造全栈解决方 案,与 OEM 深度合作。3.自动驾驶域控制器软件平台厂商以软件切入,实现通用和模块化平台。4.OEM 厂商期望自研域控制器甚至芯片以掌握底层硬件自主权。
智能驾驶域控制器供应仍以国内Tier 1厂商为主,虽然头部主机厂自研域控意愿较强,但受限于相关研发积累、资金限制及自身销量等问题,自研难 度大、成本高,不一定有足够的销量来摊薄前期研发成本,故大多数厂商仍以采购Tier 1厂商产品及方案为主,自身参与到开发中,一方面积累相关技术,另一方面优化软硬件协同效果。国内主流 Tier 1 有华为、德赛西威、经纬恒润等企业,均胜电子、中科创达、大疆、东软睿驰等快步追赶,占 据一定市场份额;国际Tier 1大陆集团、博世、采埃孚等均有所涉及,但进入L2+级自动驾驶以后, 国际Tier 1厂商开始逐渐落后于国内Tier 1厂商的发展步伐。华为:智能驾驶全栈解决方案供应商 作为国内Tier 1厂商中较少能够提供智能驾驶全栈解决方案的企业,华为智能驾驶产品线非常丰富, 综合实力强。华为MDC产品经过数年发展,已覆盖多场景自动驾驶平台需求,其使用同一套软件, 同一个硬件架构,方便进行软件和硬件的迭代升级。目前全系列共有4件产品:MDC300F用于矿区、 港口、园区、高速物流等车辆;MDC210主要用于中低端车的铺量;MDC610用于高端车拉升品牌;MDC810 用于Robotaxi 或高级别的自动驾驶,其采用昇腾620芯片,算力高达400+TOPS。
华为MDC平台性能强大,功能安全,提供开放的生态和多种开发工具。华为MDC810性能强劲算 力达400TOPS。具备用户态分布式OS内核,调度时延<10us,平台级时延<40ms。其异构计算能力 能针对不同环节提供不同的算力类型和大小,更精准地满足算力需求。此外,华为 MDC 具备面向 L4 的高安全架构,通过了信息安全、功能安全、车规级测试、软件成熟度认证、极端工况测试等多 项检验。同时,华为 MDC 基于标准化和平台化的设计理念,实现软硬件解耦,提供丰富的传感器 接口、全场景覆盖的工具链、100+标准的API和开放的SDK,支持与线控底盘接口对接、支持软件 开发和移植、支持不同级别自动驾驶的功能要求。华为也提供完整的开发工具链,帮助客户和生态 伙伴提升开发效率,完善华为MDC生态构建。华为于2021华为智能汽车解决方案生态论坛提出,截 至2021年底已有70余家生态合作伙伴,联合拓展乘用车项目超6个,商用车/专用车项目超11个。
华为MDC提供了MDC工具链、MDC Core SDK和车云协同开放平台等开发者套件,很好地提升 了开发效率。MDC工具链含有AI集成开发环境Mind Studio、AP配置工具MMC、集成开发环境 MDS、标定诊断工具MCD、可视化调测工具MViz,覆盖自动驾驶应用的研发、调试、部署、运营 全生命周期。MDC Core SDK加速开发效率,支持TensorFlow、caffe等主流AI框架,支持1000+ 主流算子,开放100+API 接口。云端提升提供数据、场景、训练、仿真服务,加速车云数据闭环, 有20万+场景库和2000万+数据集,大幅提升训练和仿真效率。
德赛西威专注于人、机器和生活方式的整合,前身为1986年成立的中欧电子工业有限公司,迄今已 有30多年汽车电子产品制造经验,制造工艺覆盖汽车电子产品生产全流程,公司为智能座舱、智能 驾驶以及网联服务提供创新、智能的产品解决方案,与大众集团、马自达集团、吉利汽车、长城汽 车、广汽集团、小鹏汽车、理想One等国内外汽车制造商建立了良好的合作关系。德赛西威智驾产品全面丰富,满足客户多层次产品需求。公司与英伟达深入合作,智能驾驶域控制 器产品经过IPU01-04四代迭代已形成丰富产品矩阵,能够满足从高性价比到高性能多层级市场需求。IPU01 是德赛西威最早量产核心产品,主要用作环视及泊车控制器,出货量已超百万套;轻量级智 能驾驶域控制器IPU02已进入上汽、长城、通用以及造车新势力等车企配套体系,适配国内中低价 格带这一最大细分市场,能够在有限成本范围内提供一定的智能驾驶功能;IPU03/04是高性能方案, 基于英伟达 Xavier 芯片的 IPU03 已在小鹏 P7 上量产,基于Orin芯片的高算力平台IPU04已通 过ISO/SAE 21434 体系认证并在理想等客户上实现规模化量产。受益于英伟达芯片的强大算力以及 自身优秀的量产能力和规模化优势,公司持续拓展产品矩阵和客户群体,伴随着国内 L2、L2+级 ADAS产品渗透率的快速提升,公司智能驾驶域控制器有望迎来爆发式增长。
智驾域控制器与英伟达深度合作,带来高硬件性能及先发优势。IPU03/IPU04 依托于英伟达芯片的 高度计算能力,产品性能表现出色。2020年,德赛西威首款基于NVIDIA Xavier芯片的IPU03自动 驾驶控制平台量产,能够应对 L2 级别的全速域 ACC 自适应巡航、车道居中、车道偏离预警等功 能;作为德赛西威拳头产品的 IPU04,在算力、性能、端口、成熟度等方面有了跨越式发展,基于 两颗Orin 芯片,其总算力已达到 508TOPS 并可根据车企需求最高可拓展至 2000TOPS,算力高出 IPU03 的 7 倍以上,满足当前L2甚至L3级算力需求;具备更丰富的接入端口,最高可接入16路 高清摄像头,5个毫米波雷达,12路超声波传感器,以及1-3个激光雷达。
高端智驾域控领域具有先发优势,合作开发能力较强。1992年公司已建立智驾研发团队,近年来研 发费用占营收比重持续超过10%,同时公司与英伟达合作较早,开发的域控硬件和中间件等产品能 够较好匹配底层芯片,充分发挥其效能。德赛在打造域控产品平台化实现快速复用的同时,依靠快 速设计、验证、量产的经验和能力,针对车企不同车型空间结构设计差异、算法差异等进行相应适 配满足车企定制化需求,使公司相对于通用产品供应商竞争优势明显。
大批量量产制造经验带来质量、成本、设计上的护城河。德赛域控产品历经四代迭代已形成丰 富产品矩阵,具有量产经验,IPU03、IPU04 大规模搭载小鹏 P7、理想 L9 等旗舰车型,高搭 载率和车型销量充分证实域控产品的可靠性。同时德赛西威作为目前中国市场主要域控制器供 应商,市占率较大,芯片采购量相比其他主机厂和Tier 1更多。大批量采购能带来一定的价格 优惠,在芯片的供应端具有成本优势。同时对于很多共用的芯片和零部件可以大量备货,在部 分客户芯片等零件结构性短缺时候可以串货,缓解客户供应端的压力。此外,德赛西威依托其 市场地位,在与上游供应商合作时有更高的话语权,与部分芯片厂商有定制化产品,弥补通用 芯片上的不足,使其产品更有竞争力。同步布局传感器和智驾算法,域控产品协同优势明显。公司积极开展智能驾驶领域多维度、多渠道 的协同共创,积极拓宽传感器、智能天线、算法等领域布局,提供平台化域控产品和系统级智能驾 驶解决方案,进一步增强公司产品整体适配度和综合竞争力。传感器方面,已在智能驾驶相关传感 器和T-Box方面获得市场领先地位,目前公司高清摄像头、ADAS摄像头已实现规模化量产,毫米 波角雷达、BSD 雷达均在多个客户量产应用,同时 4D 及国产化雷达方案已完成产业技术布局;5G+V2XT-BOX+智能天线方案已顺利在上汽通用、红旗等客户上实现规模化量产,并在 2022 年获 取国内头部OEM多款车型的出海业务。自动驾驶算法领域,公司全方位布局 L1 泊车至 L4高级智能辅助驾驶算法,通过自研+对外投资合 作模式寻求产品快速突破;同时由于和英伟达的长期合作开发,德赛对Orin芯片的定制算法理解独 到,可以为下游整车厂提供底软技术支持,使其具备更好的竞争优势。公司通过上述全栈布局形成 智驾域控领域全套解决方案,打造出“智驾域控制器+传感器+软件算法+5G-V2X”产品矩阵,协同优 势明显。
经纬恒润:高性价比智驾方案供应商,智能驾驶研发起步早,具备不同等级解决方案。公司自 2010 年起投入研发智能驾驶产品,经过持续 产品创新,目前已形成ADAS+ADCU+HPC的完整平台化产品解决方案系列,能够满足不同等级智 能驾驶功能需求。公司前向 ADAS 系统是公司智能驾驶业务的核心产品,该产品整合了 Mobileye EyeQ4 芯片和Infineon AURIX ™高算力平台,实现了自适应巡航控制、车道保持辅助等多项功能。2016 年,公司自主研发的先进辅助驾驶系统(ADAS)量产配套上汽荣威RX5,实现公司自动驾驶 产品首次量产的同时打破了国外零部件公司在该领域的垄断地位。截至 2021 年 ADAS 产品已配 套或定点的车型超过 100 款,客户主要为一汽集团、上汽集团、中国重汽、吉利汽车等整车厂商。
智能驾驶域控制器(ADCU)是经纬恒润设计研发的集成式高性能计算单元。ADCU基于 Mobileye EyeQ4 及 Infineon TC-297TA 芯片,能够实现自动驾驶等高级别自动驾驶功能,支持毫米波雷达、 激光雷达、高精地图等信息接入;同时在ADCU基础上,经纬恒润将智能驾驶域控制器和自动泊车 域控制器进行融合,面向 L2+级智能驾驶要求,推出了一系列低成本、中低算力的行泊车一体解决 方案,很好地契合了市场需求;并且在ADCU硬件基础上,经纬恒润可以提供自主研发的自动驾驶 功能,或集成第三方研发功能,为用户量身定制系统级自动驾驶解决方案。
智能驾驶高性能计算平台持续投入。2023年3月,公司基于NXP新一代多核异构SoC高性能平台 开发的中央计算平台(CCP)发布,该产品实时控制核采用Classic AUTOSAR软件架构,方便多方 软件联合开发和部署、高性能计算核基于商用Linux + Adaptive AUTOSAR软件架构,提供整车全量 数据采集、整车OTA升级、SOA服务等功能,支持整车厂用户持续快速迭代应用软件,使得产品 能够提供中央网关、车身及舒适控制、新能源整车动力控制、整车全量数据采集、SOA 车控服务、 边缘计算等功能,满足 ASIL-D 功能安全等级要求。同时支持公司自研或客户定制的人工智能感知 算法、路径规划和控制方案,实现在高速公路、城市道路、停车场等场景下安全、精准、稳定的自 动行驶。该产品目前已配套滴滴、合众汽车、一汽解放等客户。
积极开拓单车智能解决方案,产品协同效应显著。经纬恒润智驾产线具备向上集成完整智能驾驶方 案的软硬件产品基础,是目前国内少数能够提供智驾全栈式解决方案的供应商,其智驾解决方案中 智驾算法、摄像头、毫米波雷达、智能网关控制器、高精定位系统等域控核心配套产品均为自研。感知端,车载摄像头、毫米波雷达产品种类丰富,车载摄像头搭配先进的ISP图像处理算法,能够 在各种复杂光照环境下给予驾乘者高质量视觉体验,同时大幅提升感知算法的识别速率和准确率, 目前已广泛应用于广汽、吉利、红旗、一汽等整车厂的主流车型。最新LRR610 4D成像前雷达具备 水平和俯仰高分辨能力(1.25°×1.7°)、超远距离探测能力和丰富的点云信息(单帧点云>10K)。
平台工具和方法流程布局全面。为保证AI感知算法的可靠落地,公司自研了一整套平台工具和方法 流程,其AI算法通过挖掘深度神经网络在数据表达方面的能力,具有实时性好、检测准确、鲁棒性 好等特点,目前已经应用在多个园区自动驾驶示范项目中,同时也在智能化港口项目中得到了充分 的应用和验证;同时公司高精定位模块LMU可以实现道路级定位,支持L2+自动驾驶,能够准确持 续提供前方道路的曲率和坡度信息,支持DOTA/FOTA升级,目前已应用于上汽、红旗、长城等客 户车型。通过上述协同布局,公司形成的系统级智能驾驶解决方案技术自主,能够充分发挥协同效 应进一步降本增效,为客户提供更高性价比智驾产品。
中科创达:领先的智驾操作系统供应商
完善产业协同布局,发力智能驾驶赛道。中科创达以智能操作系统为核心,聚焦场景需求,持续布 局智能驾驶领域。在低速智能驾驶领域,中科创达已经构建了从AVM(全景环视系统)、XPA(智 能泊车)到AVP(无人代客泊车)的全链路产品、技术与解决方案,实现了智能座舱与低速驾驶的 融合创新。此外,在域控算力平台领域,中科创达子公司畅行智驾基于在操作系统及实时中间件领 域的技术优势,为全球客户提供行业领先的智能驾驶域控产品和开放的智能汽车HPC软硬件平台。
公司利用自身技术积累,积极布局智驾相关操作系统和云端平台。目前公司正在开发 ThunderAuto 智能网联汽车操作系统和智能驾驶辅助系统 SmartDrive。该智能驾驶辅助系统包含硬件抽象、软件 开放、端云服务、场景落地等四大平台,客户可以用其开发ADAS产品、应用和系统,降低开发复 杂度、周期和成本,有望解决目前ADAS系统各自为政、软硬不分离、集成成本高、迭代演进难等 问题。
携手高通、立讯精密,智能驾驶域控制器已取得初步成果。2022年中科创达自动驾驶子公司畅行智 驾获高通创投、立讯精密投资。2022年9月,基于Snapdragon Ride SA8540P芯片,畅行智驾开发 了旗下首款智驾域控RazorDCX Takla,提供60TOPS算力、12路相机最高像素8M Pixels的接入能 力,并预留多路CAN/CANFD 接口,提供8路车规级以太网接口,满足自动驾驶对传感器接入的需 求,具备高性价比优势,实现全时中阶行泊一体,可广泛应用于低速泊车智能驾驶、高速公路智能 驾驶、城区智能驾驶以及封闭园区智能驾驶等诸多场景中。2023年4月,发布基于Snapdragon Ride 平台的高阶智驾控制器RazorDCX Pantanal,采用4nm SOC, 集成Snapdragon Ride™视觉软件栈,单芯片算力达50-100TOPS,可同时支持基础配置7V5R12USS 与高阶配置11V5R12USS 接入,并预留多路 CAN/CANFD 接口,提供 8 路车规级以太网接口,满 足不同等级智能驾驶对传感器接入的需求。实现记忆泊车、L2.9 级高速公路自动驾驶及 L3 级城区 自动驾驶,并可拓展至L4级无人售货车、矿山、自动清洁车等封闭园区自动驾驶。其具有可拓展性 强、功能安全性高、应用场景广等特点,满足从入门级到旗舰级车型对智驾域控的不同需求。
大疆:低成本NOA方案优质供应商。大疆依托视觉技术深厚积累,推出新一代智能驾驶解决方案。2023年4月,大疆车载公布了全新一 代智能驾驶解决方案,该方案以低至32TOPS的算力,7V/9V的纯视觉配置,通过“强视觉在线实时 感知、无高精地图依赖、无激光雷达依赖”实现了包括城区记忆行车(32TOPS)/城区领航驾驶(80TOPS) 在内的 L2+智能驾驶功能。同时,该纯视觉辅助驾驶系统也支持扩展毫米波雷达、超声波雷达、激 光雷达、高精度地图等传感器,增强系统的安全冗余。该方案基于当前对智能驾驶系统成本约束,结合当前智能车电子电气架构演进水平,以及中国市场 对智能驾驶真实需求,具备算力门槛低,算法扎实、功能丰富、传感器配置简洁高效、可拓展性强 等特点,方案支持扩展算力至200TOPS,提升了高速领航与城区领航等高阶L2+功能的舒适体验, 目前,该智驾解决方案目前已处于可用状态,正与合作车企积极推进量产。
均胜电子持续发力智能驾驶系统,多渠道布局智驾域控。均胜电子加快研发新一代高算力智能驾驶 域控制器产品,2022年8月,子公司均胜科技获得与国内某知名整车厂关于自驾高算力域控平台的 联合开发,公司基于英伟达Orin芯片,为客户提供一款双Orin系统架构的高算力域控平台(AD域 控制器),可以实现L2++高速公路及城市情景NOA功能、AVP代客泊车功能,并计划于2024年 开始量产;2023年5月,旗下子公司均联智行发布全球首批基于高通Snapdragon Ride第二代芯片平 台的自动驾驶域控制器nDrive H,芯片算力高达200TOPS,基于软硬件深度融合的行泊一体设计, 支持L2++到L4级别自动驾驶全场景功能,实现HPA、NOP、HWA等自动驾驶场景。同时其双芯 片结构可提供同级别全冗余平台的最优性价比解决方案,在散热处理上提供行业领先方案,高配版 本采用水冷散热设计,低配版采用风冷设计,较好解决散热问题。
同时,公司与地平线、黑芝麻等国内各芯片厂商建立合作关系。2021年8月,均联智行与黑芝麻智 能签署战略合作协议,双方依托各自优势资源,在自动驾驶计算芯片、前瞻技术联合预研及智能汽 车平台化等业务领域展开深度合作,重点围绕自动驾驶域控制器进行协同开发;2023年5月均联智 行与地平线达成战略合作,地平线将提供以“芯片+参考算法+开发工具”为基础的智能汽车解决方案, 包括车规级芯片、车载计算平台、视觉感知、人机交互等。均联智行基于自身车规级自动驾驶技术 积累,与地平线共同推进高级辅助驾驶(ADAS)、自动驾驶、智能人机交互等领域的产品开发, 加速自动驾驶解决方案的量产;同时公司依托公司智能汽车技术研究院在人工智能的技术储备和前 瞻研发优势,加快研发新一代高算力智能驾驶域控制器等产品,目前在此领域已获批及在批专利逾 50 项,涵盖自动驾驶域控制器结构、路径规划、车辆控制、数据存储等;公司和国内外多家整车厂 商共同推进基于不同芯片平台的智驾域控、驾舱融合域控及中央计算单元等项目的研发,部分项目 已顺利完成A样的开发和POC(验证测试),为公司后续获取客户量产项目的定点提供坚实支撑。
东软睿驰发力行泊一体域控,实现全链条国产化打通。东软睿驰基于地平线征程5、芯驰科技X9U 系列芯片,构建了国内首个全国产自动驾驶域控制器平台,实现国产化芯片、算法、软件、硬件从 研发到量产应用全方面全链条打通。同时,基于该平台打造的高性能行泊一体域控制器 X-Box 4.0 面向L2++级别自动驾驶,配置地平线征程5、芯驰科技X9U系列芯片,单芯片算力达到128TOPS, 可提供高速(NOA)、记忆泊车(HPA)、智能巡航(ICA)、遥控泊车(RVM)等40余项功能, 支持8M摄像头、4D点云毫米波雷达和激光雷达、DSI3超声波雷达的接入,能够有效实现对各类 异形和未知障碍物的精准感知和避让。面向跨域融合时代,基于全国产化大算力单芯片,东软推出多域融合域控制器 X-Center2.0,采用 SOA设计理念,通过自研软件架构的强大算力支撑,支持以太网接口、多屏输出以及处理多路CAN 数据的接入和转发等,大幅度减少整车开发复杂度,不断扩展整车智能化性能,实现从“域控”到“中 央计算”的跨越。
截至目前,市场上出现大量行泊一体智驾域控产品,除上述案例以外,其余厂家如地平线推出了与 金脉联合开发的自动驾驶域控制器产品Horizon Matrix® Pilot 3.0;黑芝麻推出智驾解决方案BEST drive;宏景智驾推出 ADCU 高级别自动驾驶域控;同时国际厂商大陆集团、博世、采埃孚等传统 Tier 1 巨头也在发力智驾域控产品,或通过自研、或通过成立合资公司联合开发以谋求一定的市场地 位。但由于智驾域控产品技术集成度高,投入巨大且产业上下游协同壁垒高,新晋厂商以及传统国 际巨头面临技术成熟度不足、产品工程、转型困难等问题,短期内仍难以形成有效市场竞争力。我们仍较为看好以德赛西威、华为为代表的国内主流Tier 1厂商,其具备技术领先优势、规模化量产 优势、客户覆盖度广优势,并且能够充分发挥上下游协同优势深入参与主机厂产品研发过程,精确 理解用户需求并不断完善自我产品生态,预计在将来仍会保持较大的市场份额。
少数头部主机厂选择自研+代工模式 车企对于坚持智驾域控自研的考虑,无外乎成本、核心技术及供应链稳定、产品亮点和差异化等几 个因素的考量。根据 HiEV 大蒜粒车研所测算,从资金成本考虑,当前智驾域控中硬件占总成本的 比重约为60-80%,软件占比约为20-40%,以主营业务为智驾域控的知行科技为例,其雇佣员工200 人左右,近三年合计研发投入近2亿元,从时间成本上考量,小鹏从官宣自研到落地G9大致花了 两年时间,因此如果能将硬件乃至整个域控方案掌握在自己手里,将有效降低车企成本提升产品竞 争力;同时如果车企意图将智能化打造为自身标签,自研与车型更为匹配的域控产品将会是更好选 择,自研域控将会提高系统的软硬件协同能力并减少芯片算力耗费,同时车企将拥有完整的开发工 具链,在算法升级、驱动更新上将更为及时。因此,对于有一定实力和愿景的车企而言自研域控无 疑具有很强的吸引力。自研智驾域控系列产品具有裨益的同时也会带来巨大成本耗费。根据南方日报报道,2023年上半年 中国市场约20%的头部企业市场占比超过90%,在汽车市场竞争愈发激烈的当下,大部分厂商稳定 销量难以保证,相对主流Tier 1厂商而言其自研域控成本—收益比较低甚至不能覆盖成本;同时自 研域控的时间成本和缺乏经验带来的技术问题难以短时间内解决;域控的规模量产商用和与之相关 的软件生态形成也很难依靠一家自研而成。虽然理论上自研极具优势,但主机厂前置成本较高并且 难以依靠车型销量制胜,有意愿自研的厂商仍为少数。
对于规模巨大的极少数头部厂商而言,自研优势明显。将域控技术掌握在自己手里不但可以控制整 体成本也可以确保核心技术及产品供应链稳定;其次自研与车型更为匹配的域控,将有助于车企打 造差异化竞争力,定制更多个性化功能,使需求与研发结合更为紧密,从长远来看将会提升车企核 心竞争力。而外购或合作开发对于众多中小厂商或许更为友好,中小厂商自研能力薄弱并且车型销 量不足以覆盖自研成本,但依托成熟的供应链系统,中小厂商可以在有限的预算范围内,快速、低 成本外购相对高性价比的整体解决方案,使产品实现一定的智能驾驶功能并满足中低端自动驾驶需 求。长期来看,我们预计“极少数高端主机厂自研+主流Tier 1供应”的产业格局将长期存在,以华 为、德赛西威为代表的研发实力强劲、量产规模大、质量有保障的各Tier 1厂商仍将占据供应链核 心地位。
特斯拉:智能驾驶全栈自研领导者
做为智能驾驶全栈自研的先驱者和领导者,特斯拉技术优势明显。特斯拉于2020年正式推出其全栈 自研智能驾驶解决方案FSD,实现了从芯片开发到底层架构到软件开发的整体编辑能力。硬件系统 HW3.0基于特斯拉自研FSD芯片,算力达到144TOPS, 该芯片采用三星14nm工艺,包含12个 CPU、 1 个 GPU、2 个神经处理单元、以及其他硬件加速器,能够实现自动泊车、智能召唤、自动辅助导 航驾驶(NOA)、自动变道、交通信号识别、停车标志识别、城市道路自动辅助等高阶智驾功能;同时在域控算法端,特斯拉也具有领先优势,其率先应用神经网络系统HydraNet、BEV+transformer 感知算法、占用网络技术、数据处理融入时序特征、图像特征级融合等方案,提升了智驾系统感知 精确性、复杂环境鲁棒性,至今仍为行业标杆。根据推特博主“greentheonly”拆解最新 Model Y 和最新首发 Model S/X 情况来看,新一代 HW4.0 已搭载北美地区Model X/Y等高端车型。其搭载了第二代FSD芯片,采用4nm工艺;CPU核心增 加至20个;GPU、TRIP核心增加至2个;具有3个NPU核心,使用32 MB的SRAM,用于存储 模型权重和激活,预估综合性能将为当前芯片3倍左右。传感器方案也有一定改进,在坚持视觉方 案的同时,新增一个4D毫米波雷达做为安全冗余,提升感知系统的精准度和安全性。
HW4.0
小鹏:域控自研+代工模式,软硬件更加适配域控硬件自研设计,有效提升软硬一体化水平。
2020 年小鹏发布搭载有自研智驾系统 XPILOT 的 P7,该车型智驾域控为德赛西威研制,基于英伟达Xavier芯片的自动驾驶域控制器IPU03,算力达 到30TOPS。同时,小鹏也开始启动智驾域控自研并在G9上实现量产,形成以“X-EEA电子电气架 构+XNGP智能驾驶辅助系统+Xmart OS车载智能系统”为核心的智能驾驶生态。通过对域控方案自 研设计,软硬件一体化程度有效提升,二者可以更好适配,明确软件开发边界,提升硬件利用率。
自研智驾系统XNGP表现出色。其基于英伟达Orin芯片的第二代智驾系统XNGP于23年3月正 式发布。作为“重感知、轻地图”技术路线的代表,完全形态的XNGP将具备全场景智能辅助驾驶 能力,在全国各个城市都能无缝连接高速、城市、地下停车场等各种场景,实现端到端的城市NOA 辅助驾驶体验。其包含的新一代智驾域控基于2个英伟达Orin芯片,总算力达到508TOPS,搭配 31 个传感器,能够实现智能导航辅助驾驶、全场景智能辅助驾驶、VPA-L停车场记忆泊车增强版等 高阶智驾功能;域控感知算法层面,自研XNet深度视觉神经网络,凭借超强的环境感知能力,XNet 能够将多个摄像头采集的数据进行多帧时序前融合,输出动态目标物的4D信息及静态目标物的3D 信息,大大提升智能辅助驾驶,尤其是面对城市复杂场景时的感知、预判、决策、执行的能力和效 率,并且借由小鹏“扶摇”超算中心算力,使得动态XNet的训练时间由过去的276天缩减到11小 时,效率提升超过600倍。
小鹏XNGP智能辅助驾驶系统 小鹏XNet视觉感知神经网络
.
#理想~端到端
其实看见李想和蔚来那俩老大就感觉恶心可笑
半年全切换,全场景无图自己开
一夜间,理想也端到端了。
智能车参考获悉,本月理想完全自研的端到端智驾系统,已完成千人内测。
顺利的话,不用等到年底就会全面覆盖所有MAX车型用户。
这是理想第一次公开端到端上车进展,从之前尾随追赶华为、小鹏,一举实现齐头并进,效率惊人。
技术上还更加纯粹:One Model,没有任何对旧技术体系的妥协或改良。
更加惊人的是,理想自动驾驶研发一号位郎咸朋告诉我们,整个技术路线的切换、上车验证、量产准备,只用了半年时间。
能用吗?敢用吗?智能车参考率先替大家体验了一番。
理想做出了什么样的端到端
在体验之前,理想智驾产品经理特意向我们介绍了测试路线的“含金量”:
路线是选定好的,围绕理想位于北京顺义的研发中心,全程20多公里大约40分钟。
远离市中心但工厂企业很多,晚高峰仍然拥堵。城市、乡村、人车混行等等场景都有,完全真实。
虽然路线选定,但场景下变量随机。
整体体验下来,顺义路况还是比北京市区轻松得多,没有严重的堵车、加塞,车道线清晰度和路面宽度也比市区好得多:
良好路况下理想端到端的体验,几乎和智能车参考前两天为大家介绍的理想6.0“无图NOA”,没有太大区别。
但在特定的复杂工况和博弈场景下,端到端优势就十分明显了。
比如在一个左转路口,旁车道的车突然抢跑别车:
理想端到端系统,采取了快打方向、紧急避险动作,而不是突然刹停提示接管。
“避让”显然是比“刹停退出”更安全、更负责任的行为,而且也符合人类司机在相同情况下的会采取的行动。
再比如,路上我们遇到了一辆停在路上下客的公交车,而同时,对向车道又有一辆驶来的大卡车。
理想端到端给我们秀了一把“艺高人胆大”,直接在两个大车夹缝中完成了一次极限穿越:
对于可通行空间的精准判断和车控的细腻程度,已经超越了人类老司机。
但这样的策略是否必要?会不会给用户带来不必要的心理压力?可能还需要再斟酌讨论。
理想的解释是,现在的端到端还在测试,驾驶行为的偏好取向还要更多数据和测试反馈来决定,不代表量产实际情况。
第三个让人印象深刻的场景,是在一条主干道和乡村小路的右转博弈:
挑战是多方面的,首先这是个直角弯,对于大型SUV来说操作空间十分有限。其次路面有很大的坡度,车辆俯仰会影响传感器的朝向和数据质量。
最困难的还是同时和两轮车、三轮车、货车、行人等等目标的博弈:
整个过程沉着冷静,没有任何多余的刹车、加速或是方向调整。
理想特别强调了“拟人”的优势:没用端到端的智驾,也有概率能通过,但博弈过程可能是“前倨后恭”,想过又不敢过,整个过程反复刹车、提速。
最后再来看一个十分有趣的场景。
路过学校时,理想同学会给用户播报“现在路过学校,速度降至XX”。类似的,对于路上可能会影响驾驶行为的突发事件,理想同学现在都会播报。
难道是背后用高精地图开天眼?
NoNoNo,这其实是理想端到端智驾的独特优势:
车端2个系统,一个是端到端AI司机,另一个是视觉语言模型VLM。
端到端负责感知、决策、规划,是AI司机的主体。并且理想端到端不同于华为、小鹏,采用更直接的One Model结构,不分层:
输入传感器数据,直接输出自车行驶轨迹。
One Model典型玩家是特斯拉,国内的商汤绝影UniAD也选择了这条路线,同样也走到了量产前夜。
至于VLM,本质是一个多模态大模型,作用是智能驾驶“点读机”,哪里不会点哪里,利用大语言模型的认知能力理解场景,输出另外一条行驶轨迹给端到端模型参考修正。
为啥要这么做?理想解释因为端到端模型尽管直接学习人类成熟驾驶经验,但黑盒决策过程不为人知。对于目标的错检漏检,以及幻觉问题难以通过直接调参解决。
所以要加这么一个“点读机”,以及适当的强化学习手段来规范端到端模型的行为。
总结一下,理想用半年时间干出了这样一套即将量产的端到端智驾技术:
最大的不同点是没用国内主流的多段式结构,而是和特斯拉One Model一样一步到位,而且也是国内量产进度最快的。
但理想和特斯拉不同的点又在于,选择用语言模型为基础的多模态模型作为认知能力的补充,和小鹏、蔚来、商汤等等玩家相同。
以及还有一点,端到端模型参数量4-5亿,VLM总参数量22亿,完全能在现有Orin芯片的理想各个MAX车型上实现车端部署。
理想怎么做端到端
简要的说,理想端到端“方法论”有三个组成部分:
一是找对老师,二是理顺架构,三是舍得砸钱。
理想自己形容新的智驾技术体系为一快、一慢。
快的是端到端模型本身,应对实时驾驶任务;慢的则是VLM大模型,用来学习常识,应对未知路况,比如潮汐车道等等。
分别来自两个“老师”:端到端摸着特斯拉过河,VLM则取法谷歌机器人系统 RT-1 和 RT-2。
这是理想认为的现在最可行的端到端量产模式,集各家之长。
自己是“踩在巨人的肩膀上”,躲了前人掉过的坑,才能在半年内完成端到端技术切换和量产准备。
理想尤其强调了特斯拉的先驱作用,FSD在V12之后各个版本展现出的实力,和快速进步迭代的能力,让理想几乎没有什么犹豫,果断选择One Model路线。
更长远的影响,是特斯拉的数据理念,理想从2019年就开始实践了。
李想去年曾坦白在智驾方面投入不足:早期因为要活下去,而把主要资源投在了产品、制造、渠道等等方面,智驾研发长期都是拮据状态。
智驾一号位郎咸朋更详细地解释了一下:所谓“没资源”,主要是没有足够的预算挖人才搞算法。
所以早期理想用Mobileye方案,后来又用地平线+三方供应商方案等等,那时的智驾团队更像是一个“甲方”或项目交付团队。
但在有限资源制约下,李想和郎咸朋依然达成共识:算法可以徐徐图之,但数据能力必须提前建立起来。
所以在2019年开始交付的第一代理想ONE,团队特意在Mobileye的传感器旁边多放了一个摄像头,用来收集和分析问题。相应的,完成了一整套数据采集、挖掘、标注、训练的工具链。
一个例子,郎咸朋透露目前理想智驾训练数据的人工标注占比,已经不到1%。每年节约大约三四百亿的成本(人工标注一帧约10元)。
数据积累和研发体系建设上很早,这是理想端到端“一夜间”上车交卷的核心。
理顺架构始于去年下半年的理想战略会,明确研发和量产交付一起做,一个技术体系,无论是早期的NPN还是去年底推的无图NOA,研发团队都是先在封闭区域短时间做验证,一个区域跑通就立马往外扩,同步加上安全兜底策略。
随着测试范围扩大,理想会逐步加入用户测试,实际上此时研发团队的角色和交付团队重叠了。
舍得砸钱,郎咸朋说目前理想每年用在训练上的费用为10亿人民币,未来这个数字会上升到10亿美金。
所以10亿仅仅是入场券,企业有健康的营收利润,保持每年数十亿的持续投入,才是端到端出成果的前提——“幸好理想的业务十分健康”。
换句话说,车卖得多,钱也多,以及还有另一层优势:数据足够多。
郎咸朋认为这是理想回应一切对于质疑的终极答案。
理想为什么要做
理想端到端有两个模型,所以现在出现两种质疑声音。
首先是融合图像、语言多数据类型的大模型,理想能不能做好?
之前有国内知名AI玩家质疑过车企或者纯自动驾驶团队,没有通用性大模型的落地实践经验,靠开源模型永远实现不了端到端自动驾驶的认知能力。
换句话说,除非你一直搞通用AI大模型,否则你就很难搞好那个端到端“点读机”。
把这个问题抛给理想,他们的回应是这样的:
对于垂类应用来说,通用AI领域的多模态模型借鉴意义没那么大,唯一相通的其实就只有预训练的部分。
但再往后怎么训练,怎么加自动驾驶的知识而还不影响大模型常识,我们更有优势。因为我们有足够多的数据。反而是他们可能有点天真了。
第二种质疑,来自All in端到端的友商,同样被我们抛给理想智驾负责人。
刚刚布道完端到端的何小鹏提了两个观点,首先是端到端应该是渐进式的,一步跳到One Model不可靠,以及他还说“车多数据多,也不一定能做好”。
对于分段式和One Model之争,郎咸朋认为肯定是One Model更好,但理想的技术路线切换不存在什么“飞跃”,而是实践后得出的认知。
去年,理想先后验证了高速NOA的有图路线、NPN(地图先验信息)、通勤NOA,最后又改成现在6.0的无图NOA(BEV+Transformer),在一年时间内快速试错:
从高速NOA到城市NOA,发现高精度图依赖不得,于是决定走NPN线,只在复杂路口用地图先验信息。后来NPN百城推进过程中,又发现大量二三线小城,效果远不如北上广这样的一线城市,解决不了问题,于是开始探索彻底去图的方案。
6.0无图NOA就是在这样的背景下诞生的。其实和小鹏华为在推的“分段式”端到端一本质相同,也是感知、决策、规控几个模型串起来,各个模块采用数据驱动。
但无图NOA落地过程中,理想又发现了新的问题。那就是只要还有规则存在,就永远有不符合人类驾驶习惯风格的行为,在用户看来,就是“开得不好”。
这个时间节点是今年年初,理想内部迅速统一了认识:
只有One Model端到端才能完全按照人类的习惯去学习驾驶。
虽然有技术切换的成本,有组织管理上的代价,但对于理想来说是值得的,也能负担得起。
为什么要做端到端,为什么走了这么多弯路才开始做端到端,以及为什么能这么快出结果,理想和盘托出。
至于端到端是不是解决自动驾驶终极问题的灵丹妙药,理想和大部分从业者看法并不同。
理想认为,仅靠端到端实现不了无人驾驶,因为目前为止,端到端模型本身解决的还是corner case问题,只不过方式从以前的写规则变成了喂数据。
真正制约自动驾驶发展的,是模型的认知能力,是大模型本身的规模。
所以理想认为,智驾未来的关键变量其实是算力,只有车端算力足够大,才能把大模型频率跑的足够高、延迟足够低。
一旦大模型的响应时延满足自动驾驶安全需要,端到端模型本身和“外挂”VLM模型会出现融合的趋势,理想现在已经在做相关预研工作…这是一条特斯拉也不曾探索过的路线。
未来终局会是什么样,中间又会有哪些变数?
现在下结论太早,最快也要到英伟达的1000TOPS“芯皇”Drive Thor量产上车,答案才会逐渐清晰。
.
#DOLPHINS
多模态大模型:全面理解复杂长尾的开放驾驶场景
原标题:DOLPHINS: MULTIMODAL LANGUAGE MODEL FOR DRIVING
论文链接:https://arxiv.org/pdf/2312.00438
代码链接:https://github.com/SaFoLab-WISC/Dolphins
项目地址:https://vlm-driver.github.io/
作者单位:威斯康星大学麦迪逊分校 NVIDIA 密歇根大学 斯坦福大学
论文思路:
探索完全自动驾驶汽车(AVs),使其能够在复杂的现实世界场景中以人类般的理解力和反应力进行导航一直是一个重要的目标。本文提出了Dolphins,这是一种新颖的视觉-语言模型,旨在作为对话式驾驶助手,具备类似人类的能力。Dolphins能够处理包括视频(或图像)数据、文本指令和历史控制信号在内的多模态输入,并生成与所提供指令相对应的知情输出(informed outputs)。基于开源的预训练视觉-语言模型OpenFlamingo,本文首先通过创新的Grounded Chain of Thought(GCoT)过程增强了Dolphins的推理能力。然后,本文通过构建特定于驾驶的指令数据并进行指令调优,将Dolphins定制化为驾驶领域的应用。通过利用BDD-X数据集,本文设计并整合了四种不同的自动驾驶任务到Dolphins中,以促进对复杂驾驶场景的整体理解。最终,Dolphins的独特特征体现在两个方面:(1)能够全面理解复杂且长尾的开放世界驾驶场景,并解决一系列自动驾驶任务;(2)展现出类似人类的能力,包括通过上下文学习进行无梯度的即时适应,以及通过反思进行错误恢复。
主要贡献:
- 本文提出了一种基于视觉-语言模型(VLM)的对话式驾驶助手Dolphins,该助手能够像人类一样规划高级行为,补充自动驾驶系统(ADS)。
- 本文设计了一种 Grounded Chain of Thought(GCoT)过程,最初赋予Dolphins链式思维推理的能力。随后,本文使模型与自动驾驶任务对齐,尽管可用数据集的范围有限,这一方法不仅弥补了数据集的限制,还使Dolphins能够有效地分解复杂任务并学习其基础子任务。
- 本文通过定量指标和定性展示,证明了Dolphins在场景理解和推理、即时学习和适应、反思和错误恢复方面的显著能力。
论文设计:
实现车辆系统完全自动化的探索是一场创新的考验,融合了人工智能[1]、机器人技术[2]和汽车工程[3]的见解。其核心目标是设计出能够在人类般理解和响应的复杂现实驾驶情境中进行操作的自动驾驶车辆(AVs)。
当前的自动驾驶系统(ADS)[4]是数据驱动并且通常是模块化的,将任务分为感知、预测、规划和控制[5]。然而,这些系统在不同情境下的集成和性能方面仍面临挑战。端到端(E2E)设计提供了直接从感官输入到控制输出的映射,但它们缺乏可解释性,给安全性和法规遵从带来了挑战[6, 7, 8]。
此外,与人类驾驶员相比,现有的自动驾驶系统(ADS)存在许多局限性,包括:
- 整体理解和解释:现有的数据驱动自动驾驶系统(ADS)在整体理解和解释动态复杂场景方面往往表现不足,尤其是在开放世界驾驶环境中长尾分布的场景中[9, 10]。例如,在一个球弹到路上,随后一个孩子追着球跑的场景中,人类驾驶员可以立即推断出潜在的危险,并采取相应的行动来防止意外发生,这依赖于常识、过去的经验以及对人类行为的基本理解。相比之下,现有的ADS如果没有大量类似数据的先前暴露,可能难以准确地解释这种场景。这种缺乏整体理解能力限制了系统在数据分布长尾中意外场景中的泛化能力[11, 12]。
- 即时学习和适应:与能够通过少量示例即时学习和适应新场景的人类驾驶员不同,现有的ADS需要大量数据的广泛训练才能处理新情况。例如,人类驾驶员可以在遇到一种新的道路障碍后迅速学会绕行,而ADS可能需要暴露于许多类似场景才能学到同样的教训。
- 反思和错误恢复:现有的ADS通常在操作过程中采用前馈处理,缺乏基于反馈和指导进行实时纠正的能力。相比之下,人类驾驶员可以根据反馈实时纠正其驾驶行为。例如,如果人类驾驶员走错了路,他们可以迅速根据错误反馈调整决策,而ADS可能难以迅速从错误反馈中恢复[13, 14]。
这些局限性突显了需要一种中间框架来弥合当前自动驾驶系统(AVs)与人类驾驶之间的差距。最近在(多模态)大型语言模型(LLMs)[15, 16, 17]方面的进展,带来了应对这些挑战的希望。这些模型具备丰富的人类知识库,为显著改进自动驾驶系统提供了宝贵的见解。然而,这些模型主要在一般的视觉和语言数据上进行训练,这限制了它们在专门驾驶领域的有效性。此外,当前的模型设计只能处理静态图像和文本数据以生成零样本决策,缺乏处理时间性视频输入和上下文学习的能力。
本文提出了Dolphins(如图1所示),这是一种专门为自动驾驶车辆(AVs)定制的视觉语言模型(VLM),作为对话式驾驶助手,旨在缩小现有自动驾驶系统(ADS)与人类驾驶之间的差距。
基于OpenFlamingo [18],Dolphins通过一系列专门的指令数据集和有针对性的指令微调,适应了驾驶领域。本文首先基于一些公共视觉问答(VQA)数据集[19, 20, 21, 22]、视觉指令数据集[15, 23]和ChatGPT,构建了一个带有 grounded CoT 响应的图像指令跟随数据集,以将细粒度推理能力融入OpenFlamingo模型中。然后,本文利用BDD-X [24]建立了本文的指令数据集,重点关注四个关键的自动驾驶任务:行为理解、控制信号预测、行为分析和深入对话。
Dolphins展示了对复杂驾驶场景的高级理解和类似人类的能力,如即时学习、适应、反思和推理,这显著缩小了现有自动驾驶系统(ADS)与人类驾驶之间的差距。值得注意的是,Dolphins在感知、预测和规划等广泛任务中展现了广泛的适用性,这要归功于其对场景的全面理解。它能够解释静态和动态场景,整合环境因素,并有效地处理下游的预测和规划任务。
此外,Dolphins的上下文学习能力使其能够快速适应新的驾驶条件,相较于现有模型是一个显著的进步。其错误恢复机制提高了模型的准确性和可靠性,使其成为实际驾驶场景中的宝贵工具。更重要的是,Dolphins提供了可解释性,这是在自动驾驶系统(ADS)操作中建立信任和确保透明度的关键因素。
图1:Dolphins概述。第5部分的演示展示了Dolphins在属于整体理解与推理和类人能力这两个维度的一组子任务中的能力。前者包括与自动驾驶相关的能力,如场景理解以及对自车行为的预测和规划。后者则分析了三种人类级别的能力:快速学习与适应、反思与错误恢复以及互动对话。
图2:为增强视觉语言模型(VLMs)的细粒度推理能力而生成 GCoT 响应的过程。ChatGPT从文本输入开始,逐步生成GCoT。
图3:本文提出的数据集概述。与之前的数据集相比,本文采用了RICES(基于检索的上下文示例选择)[60]方法为每个样本选择上下文示例。此外,本文引入了“详细对话”任务,以训练本文的模型生成与人类偏好高度一致的详细响应。此指令旨在释放基础模型的潜在能力,该模型已在由图像-指令-响应三元组组成的数据集上进行了指令微调。
图4:Dolphins模型架构。
表1:和标记最初来自OpenFlamingo训练范式,本文遵循Otter的做法,加入了一个新标记,以更容易截取模型输出的目标答案。请注意,只有绿色序列/标记用于计算损失,本文使用交叉熵损失来训练本文的模型。
实验结果:
图5:展示Dolphins在场景理解方面能力的示例 § 5.1.1。视频中展示了一辆自车在隧道中行驶的场景。Dolphins能够识别自车所处的环境,并准确确定前方车辆的颜色以及推断当前时间。
图13:展示Dolphins在预测能力方面的示例 § 5.1.2。视频中展示了一辆自车正在掉头。Dolphins能够预测前方停放的黑色车辆的轨迹。由于前方的黑色车辆目前停在路边,本文的模型预测该车辆将继续停在那里,不会出现在自车的掉头轨迹中。
图14:展示Dolphins在规划能力方面的示例 § 5.1.2 及控制信号。Dolphins还能够理解控制信号,并利用这些信号预测自车下一秒的速度和转向角度。此外,本文可以启用Dolphins为自车制定规划,从而在驾驶过程中辅助驾驶员。然而,由于缺乏足够的信息,如地图、驾驶目的地等,该规划目前仍然仅限于短时间的未来。
图20:三个示例展示了本文的模型通过上下文学习实现对未见指令的快速适应 § 5.2.1。在前两个示例中,Dolphins通过上下文示例学习扮演驾驶员的角色,并能够准确描述其行为,尽管没有接受过此类指令的训练。第三个示例显示,Dolphins能够从上下文示例中学习常识,例如在隧道内无法根据光线判断当前时间。
图22:展示Dolphins在交互对话能力方面的示例 § 5.2.2。视频中展示了一辆自车在雨天停在路口,Dolphins能够回答关于天气、交通信号灯及其对驾驶影响的各种问题。
图25:展示Dolphins在反思能力方面的示例 § 5.2.3。视频中展示了一辆自车在城市街道的路口行驶。前方的黑色车辆似乎想要右转,因为它的右尾灯在闪烁。最初,Dolphins预测黑色车辆会继续向前行驶。然而,在被告知“闪烁的尾灯表示转弯或变道”这一交通规则后,Dolphins进行了反思并修正了错误的预测。
总结:
随着本文对Dolphins的探索接近尾声,这款旨在提升自动驾驶车辆(AVs)的新型视觉语言模型展示了其在复杂驾驶场景中进行整体理解和类人推理的显著能力,标志着自动驾驶技术领域的一大进步。通过利用多模态输入和创新的 Grounded Chain of Thought, GCoT 过程,Dolphins展现了其作为对话式驾驶助手的高超能力,能够以更高的解释能力和快速适应能力应对广泛的自动驾驶任务。尽管本文已经取得了显著进展,但未来仍面临诸多挑战。
然而,本文在将Dolphins完全优化用于实际自动驾驶车辆(AVs)应用的过程中遇到了显著挑战,特别是在计算开销和可行性方面。本文对Dolphins在DriveLM数据集上的表现进行了评估,这是一个针对现实驾驶场景的基准测试,结果显示其在NVIDIA A100上的平均推理时间为1.34秒,这表明在边缘设备上实现高帧率可能存在限制。此外,在车辆中运行如此复杂的模型所需的功耗也构成了部署的重大障碍。这些发现强调了在模型效率方面进一步改进的必要性。
展望未来,正如新兴研究[78]所建议的,开发定制和精简版的模型似乎是一个有前途的方向。这些精简的模型有望在边缘设备上更具可行性,能够在计算需求和功耗效率之间取得平衡。本文相信,在这一领域的持续探索和创新对于实现配备Dolphins等先进AI功能的自动驾驶车辆的全部潜力至关重要。
.
#还是端到端
“要么拥抱端到端,要么几年后离开智驾行业。”
进入智驾行业数年,智驾工程师秦风(化名)原本已经适应智驾行业激烈的内卷节奏。但当新技术“端到端大模型”来临时,他觉得首先被冲击的可能不是人类司机,而是作为工程师的自己。
这种焦虑并非秦风独有。不少智驾工程师告诉36氪,为了学习新技术,他们在工作加班的间隙看起了行业最新论文、去B站听课,有的甚至从研究生课本开始学起。
“端到端大模型”是今年智能驾驶行业的最新技术炸弹。
今年1月,特斯拉面向普通用户正式推送了 FSD(自动驾驶软件包) v12 的测试版本。该版本采用了端到端网络方案,不少用户称效果经验,比之前的v11版本要拟人得多。
马斯克曾介绍端到端的能力,称之为“图像端输入,控制端输出”。尽管多位行业人士向36氪表达,他们不相信特斯拉端到端方案在实操层面如此激进与神乎其技,但端到端依然如蜜般驱策着国内同行。国内玩家逐渐相信,在大模型、大算力、海量数据的驱动下,AI系统会像人类一样开车。
嗅到新的技术风潮,国内的车企与头部智驾公司已经付诸行动。华为、蔚小理、比亚迪等头部玩家都投入了团队与资源推进端到端方案;理想与蔚来两家车企,还成立了专门的端到端大模型部门,以更快推进技术落地。
高端人才的争夺也在明暗处涌动。在第一款车推向市场之际,为追上智驾进度,小米汽车挖来了前图森中国CTO王乃岩加盟。还有智驾行业人士告诉36氪,华为智驾甚至通过相关专利来锚定人才,做定点挖掘。
新方案的确在引燃国内市场。但这枚硬币另一面是,端到端强依赖于数据驱动,而非大量工程师的人力堆叠实现。特斯拉300人左右的团队规模,被当成范本在头部玩家之间传播。
然而行业现实是,当下头部玩家的智驾团队,人才规模几乎都是千人级。追赶智驾中的老牌车企比亚迪,有达3000人的软件团队,华为智驾团队人数也不遑多让。行情好的时候,工程师们普遍能拿到年薪百万的薪资包。
但不少智驾工程师都相信,如果端到端方案效果被进一步验证,车企智驾团队裁员将是大概率事件。
“200-300人都用不上。”一位前新势力车企智驾骨干坚定地对36氪说道。甚至深度学习背景的应届生,可能都比一些智驾工程师进入端到端项目更有优势。
一些智驾猎头也明显感受到了行业的人才满溢:车企智驾团队不再放出新岗位,人员开始要精简,“很多挂着的HC都是僵尸岗。”在一位猎头的最新动态中,他已经切换赛道,转而替机器人公司招揽人才。
「被堵在门外的工程师」
智驾工程师田炜(化名)告诉36氪,这场新技术变革中,比起感知模块、预测模块,规划控制模块的工程师受到的冲击会更大。
这主要因为端到端方案与传统智驾方案有明显差异。传统方案分为感知、定位、地图、预测、规划控制等多个模块,模块功能实现基本由工程师的代码驱动。感知、规划控制两大个部门的人员,往往占智驾团队人数大头。
但端到端方案的特点是,从工程师的代码驱动,变成了数据驱动。最理想的方式是,给系统输入图像,系统可以直接输出车辆的控制,中间的环节都由AI神经网络来完成。
从国内头部玩家的进度来看,引入端到端方案后,传统方案的多个模块通过AI神经网络改造,正在被整合成2个大网:感知大模型、预测决策大模型。“当下很多的方案都是在感知大模型的基础之上,接入一个预测规划大模型。”
更进一步的方案,会将感知预测决策规划集于一体,行业称之为“One Model”(一个模型)。
而新的技术路线,也对车企智驾团队有了全新的人才画像。
有智驾人士告诉36氪,端到端团队需要的人数变少,但人才门槛要求变得更高了。大模型本身要求团队有很强的深度学习背景,“搭建方案阶段,更需要很强的infra(基础架构)人才,对感知、规划控制每个模块都有深刻认知,了解不同芯片算力平台的支持力度、不同AI推理框架等。”
但负责模型搭建与训练人只占很小一部分。“可能团队90%的人都是在为端到端提供数据,以及数据闭环工具链支持等。”
“大模型本身就是一个很精干的团队。”有智驾人士说道。这也是OpenAI等AI科技公司早期仅有200-300人,但也能推出大语言模型ChatGPT,改变全球AI进程的原因。
对工程师而言,端到端技术带来的冲击也深浅不一。
有智驾人士告诉36氪,感知、规控两大模块中,感知大模型原本就依赖深度学习技术。尽管视觉检测路线从过去的CNN卷积神经网转向了基于Transformer的BEV,但工程师们的受到的影响并不大。
但对规控工程师而言,如果要加入端到端,几乎是重新切换赛道。有智驾人士告诉36氪,传统的规控工程师主要有几个方向:路径预测、路径优化、规则后处理,以及车辆控制。“都是蛮细分的学科,基本不相关。除了路径预测模块之外,其他方向的工程师基本没有深度学习背景。”
智驾工程师田炜告诉36氪,规控的人如果想转端到端,一个方向是模型训练本身,但需要很强的深度学习背景。“有可能研究深度学习的应届生,对模型的理解都比你好。”
其次,是数据挖掘和处理,为端到端提供数据养分。“但如果工具链的基建搭建完成,模型大概结构稳定之后,也可能不会再需要人。”最后是模型后处理,端到端大模型输出的轨迹不可信,仍需要一小部分工程师要写规则兜底。
工程师们的焦虑也来于此。“一方面是,端到端大模型本身不需要这么多人。另一方面是,大家都想做端到端,但公司的量产业务需要有人运转。”
一位智驾员工也因为公司当前的量产项目,错过了进入端到端项目组的时机而懊恼。但他也很纠结:即便进入端到端方案中,也是为新的方案兜底,但这不是核心的大模型本身岗位;
而如果留在现在的量产项目岗位,可以积累一段完整的智驾量产项目经验,未来几年也还能流向传统车企。
但另一种险境也会到来,一旦端到端方案向全行业普及,那么他积累多年的技术栈在几年后也会面临淘汰的风险。“可能就要离开智驾行业。”
「技术分野、资源游戏」
为了转入端到端项目组,工程师田炜直接从深度学习的研究生课程开始看起。
他找来深度学习的经典课程,以及一张显卡,对着课本上的实战课程,去实现一些简单的图像识别算法。“至少先把知识点吃透了,才能知道模型本身是怎么运转的。”
看书、实践训练两个月后,田炜才稍微感觉自己能看懂一些端到端大模型开源代码。 他已经向公司申请,调入端到端项目组。
事实上,不只田炜焦虑,田炜所在智驾公司比他更焦虑。他告诉36氪,其公司与一家车企合作开发智驾量产方案,但车企内部也有团队在推进端到端,“整个公司就很焦虑,也早就启动了端到端计划。”
田炜表示,据公司了解,只要上千小时的视频数据,就可以训出来一个端到端demo,而这个量级的数据公司基本能搞定。
但田炜很清楚,以公司现有的资源,最多也只能支撑训练出来一个端到端demo,证明方案可行。从demo到量产,中间还有相当大差距。
而这场新技术的分野游戏,会最先体现在资源分野上。
特斯拉CEO马斯克就曾强调过数据对端到端的重要性:“用100万个视频case训练,勉强够用;200万个,稍好一些;300万个,就会感到Wow(惊叹);到了1000万个,就变得难以置信了。”
另一方面是算力资源,马斯克还大肆采购了英伟达的显卡训练,称到年底其人工智能训练算力将是9万张英伟达H100的等效算力。算力的储备与需求惊人。
这个门槛相当高。对于至今仍然赚钱艰难的智驾公司而言,一方面是不与车企合作,智驾公司的训练数据很难光靠自身采集得到;另一方面,云端的训练芯片在国内一卡难求,不少车企都在高价收购。“量产项目与融资都还不明朗,很难长期投入端到端。”
而另一位智驾工程师也感受到了无奈。在开发端到端项目小半年后,他接到了公司的通知,暂停端到端项目。原因是公司要集中精力与资源去开发当前的城市无图智驾方案,“端到端要消耗的资源太多了”。
该工程师感到可惜的是,他所在团队做的端到端demo已经可以上路了。团队最初还是奔着对标特斯拉的FSD而去,甚至还花了大力气去搭建工具链等基础设施建设。但随着公司端到端战略的暂停,团队的研发重心已经转向了新的领域。
端到端新技术未在国内真正落地,但对智驾行业的人才结构重塑、生态格局的冲击都已经开始显现。
尽管如此,头部玩家还是会想尽办法挤上这趟具有颠覆性意义的快车,而掌握数据资源、芯片资源、人才资源的巨头时代会到来。
.
#IRL-VLA
自驾VLA再升级!博世最新:奖励世界模型打造全新闭环强化学习框架
自动驾驶VLA深入行业视野以来,一直面临两个关键的问题:
- 现有的VLA架构通常基于开环设置中的模仿学习,倾向于捕捉数据集中的记录行为,性能在一定程度上收到了限制;
- 闭环训练严重依赖高保真的传感器仿真,但仿真环境和真实环境的domain gap和计算效率的问题阻碍了VLA的泛化。
针对这两个问题,博世、上海大学、上交和清华AIR的团队提出了IRL-VLA,一个全新的闭环强化学习方法,通过逆向强化学习奖励世界模型结合设计的VLA方法。IRL-VLA采用三阶段范式:在第一阶段,提出了一种VLA架构,并通过模仿学习对VLA策略进行预训练。在第二阶段,通过逆向强化学习构建一个轻量级的奖励世界模型,以实现高效的闭环奖励计算。为了进一步提高规划性能,最后设计了专门的奖励世界模型引导的强化学习,通过PPO(近端策略优化)有效平衡安全事件、舒适驾驶和交通效率。IRL-VLA在NAVSIM v2端到端驾驶基准测试中达到了SOTA,在CVPR2025自动驾驶大奖赛中获得亚军。
总结来说,有三个亮点:
- 提出了一种基于逆向强化学习的高效奖励世界模型(RWM);
- 提出了一种全新的VLA模型,该模型在模仿学习和强化学习两种设置下均能实现卓越的性能
- 在CVPR2025挑战赛的NAVSIM v2取得了第二的成绩。
非常不错的工作,后续xx也会持续跟踪~
- 论文链接:https://arxiv.org/abs/2508.06571
引言
端到端自动驾驶已成为一个意义重大且迅速发展的研究领域。随着大量人类驾驶演示数据的可用,从大规模数据集中学习类人驾驶策略具有巨大的潜力。诸如UniAD和VAD等方法将传感器数据作为输入,并在一个完全可优化的模型内直接回归出单模态轨迹。SparseDrive进一步探索了稀疏表示,并提出了一个带有并行运动规划器的对称稀疏感知模块。借鉴机器人学中的扩散策略,DiffusionDrive、Diffusion Planer和Diff-semanticFusion通过锚定高斯分布设计和精心设计的去噪过程生成多样化的驾驶动作。尽管端到端自动驾驶取得了实质性进展,但系统的性能仍然脆弱,在长尾驾驶场景中表现出明显的性能下降。
近期的研究方法试图通过利用嵌入在视觉-语言模型(Vision-Language Models, VLMs)中的海量世界知识来缓解这一挑战,即所谓的视觉-语言-动作(Vision-Language-Action, VLA)模型,该模型以视频为输入并直接输出驾驶轨迹和动作。
一些方法将VLM连接到一个端到端模型,以提高轨迹规划的准确性。RecogDrive引入了一种新颖的驾驶框架,该框架结合了视觉-语言模型、基于扩散的规划器以及模拟器辅助的强化学习,以生成安全、类人的轨迹。SimLingo引入了“动作梦境”(action dreaming)任务,以严格评估指令条件下的驾驶行为。ORION通过名为QT-Former的基于查询的时间模块,将视觉-语言推理与生成式轨迹规划相结合,并采用基于变分自编码器(VAE)的规划器。
尽管如图1.a所示的模仿学习VLA方法,凭借VLM的卓越能力实现了优越的性能,但我们认为,由于在开环框架内进行模仿学习,大模型的全部潜力仍未被充分探索,这种方法倾向于复制数据集中的记录行为。这是因为驾驶本质上是一个多目标且多模态的任务,其中多模态反映了存在多个最优解,而多目标则要求满足多样化的评估标准(例如,碰撞避免、可行驶区域合规性、交通规则合规性等)。一种更自然的策略是让模型在模拟环境中自主探索,如图1.b所示,从而模仿现实世界中观察到的经验学习过程。然而开发一个完全交互式且闭环的模拟框架仍然是一个重大的技术挑战:1)仿真到现实(Sim2Real)的领域差距;2)巨大的计算开销。
在本文中,如图1.c所示,我们介绍了一种新颖的闭环强化学习框架,该框架通过逆向强化学习(Inverse Reinforcement Learning)与我们自建的VLA方法相结合,命名为IRL-VLA。利用我们的框架,设计并学习了一个实时奖励世界模型(Reward World Model, RWM),该模型通过从多样化策略中进行逆向强化学习获得。它捕捉了驾驶的多模态和多目标本质,同时能够以一种成本效益高的方式扩展到大量真实世界数据,从而规避了Sim2Real的领域适应问题。我们应用所学习的RWM来指导我们VLA模型的强化学习。我们的方法在NAVSIM v2端到端驾驶基准测试中达到了最先进的性能,在CVPR2025自动驾驶大奖赛中以45.0 EDPMS的成绩获得亚军。
据我们所知IRL-VLA是首个通过端到端强化学习(包括传感器输入)实现的闭环VLA方法。我们工作的关键贡献总结如下:
- 提出了IRL-VLA,这是一种为视觉-语言-动作(VLA)模型量身定制的、从模拟器反馈中进行强化学习的开创性框架。为了取代计算成本高昂的基于仿真器的奖励计算,引入了一种基于逆向强化学习的高效奖励世界模型(RWM),从而实现可扩展且有效的奖励估计。这个学习到的奖励模型随后被用于通过强化学习训练VLA智能体,显著增强了其实用性。据我们所知,这是首个在训练过程中不依赖仿真器开发基于强化学习的VLA自动驾驶模型的工作。
- 提出了一种全新的VLA模型,该模型在模仿学习和强化学习两种设置下均能实现卓越的性能,从而在不同的训练范式中实现最优性能。
- IRL-VLA框架在CVPR2025挑战赛的NAVSIM v2端到端驾驶基准测试上取得了卓越的性能。这些结果证明了我们方法的有效性和通用性。
相关工作回顾
端到端自动驾驶:由于其将感知、预测和规划等模块化任务整合在一个完全可微分的设计中,从而能够为追求最终目标而进行优化,因此端到端自动驾驶的研究兴趣激增。UniAD引入了一个全面的框架,将全栈驾驶任务整合到单个网络中。VAD以完全向量化的方式表示驾驶场景——涵盖智能体轨迹和地图元素——从而消除了对计算密集型光栅化表示的需求。Sparsedrive进一步探索了稀疏表示,并提出了一个对称稀疏感知模块和一个并行运动规划器。借鉴机器人学中的扩散策略,DiffusionDrive、Diffusion Planer和DiffSemanticFusion通过锚定高斯分布设计和适当的去噪过程生成多样化的驾驶动作。
自动驾驶中的视觉-语言-动作模型:近期的方法,建立了视觉-语言模型(Vision-Language Models, VLMs)与端到端框架之间的桥梁,以提高轨迹规划的准确性。Recogdrive介绍了一种新颖的端到端驾驶架构,该架构结合了视觉-语言模型、基于扩散的规划器和模拟器辅助的强化学习,以生成安全且类人的轨迹。SimLingo引入了“动作梦境”(Action Dreaming)任务,以严格评估指令条件下的驾驶行为。此外,ORION提出了使用QT-Former和变分自编码器(VAE)将视觉-语言推理与轨迹规划相融合。然而,这些方法依赖于模仿学习,这限制了它们在真实世界多模态和多目标驾驶场景中的泛化能力。
自动驾驶中的强化学习:强化学习(Reinforcement Learning, RL)已成为一种有前景的方法,在大语言模型(LLMs)和游戏中已证明其成功。在自动驾驶的背景下,RL已被用于解决特定的决策挑战和复杂的驾驶场景。RAD在基于光真实感3D高斯点阵(3DGS)的仿真框架内,采用强化学习来训练一个端到端的自动驾驶智能体。然而,由于传感器渲染的计算量巨大,且未解决仿真到现实(Sim2Real)的领域差距,该方法仅限于离线策略学习。其他研究提出了基于学习的轨迹规划框架,其中动作被直接表示为以自我为中心的规划轨迹。Car-Planner提出了一种基于RL的规划器,在具有挑战性的大规模真实世界数据集nuPlan上,其性能超越了模仿学习(IL)和基于规则的最先进方法(SOTAs)。DiffVLA提出了一种高效的VLA模型,该模型采用分层的由粗到精的扩散式轨迹生成,并结合VLM的导航引导。尽管它在NAVSIMv2基准测试上取得了最先进的性能,但其模仿学习的设置限制了其潜力。我们的IRL-VLA框架将RL的应用范围从规划器扩展到了整个VLA模型架构,从而进一步提升了模型性能的上限。
IRL-VLA算法详解
本节将详细介绍我们所提出的视觉-语言-动作(VLA)模型,该模型通过一个奖励世界模型进行闭环强化学习训练,如图2所示。
问题定义
在自动驾驶中,端到端驾驶系统根据传感器输入数据(如多视角相机图像或激光雷达/雷达点云)和自车状态(自车速度和自车加速度),输出未来的轨迹或未来的动作:
其中,轨迹可以表示为当前自车坐标系下的一系列车辆路径点(坐标和航向),其中每个路径点定义为,表示二维位置,表示航向角。或者,一系列智能体动作也可以表示为,其中每个动作与具有相同的语义含义。参数表示预测视界,即需要预测的未来步数。
模仿策略学习
视觉-语言-动作模型:受xx智能领域内双重过程理论最新进展的启发,我们提出了一种用于自动驾驶的高效VLA模型,该模型包含三个不同的模块:(1) 用于深度场景理解的语义推理模块(2) 用于精确几何推断的3D推理模块以及(3) 一个统一的基于扩散的规划器,用于生成多样化的驾驶轨迹。
语义推理:如图2.d所示,为了在自动驾驶场景中实现多模态信息的有效处理和融合,我们提出了VLM指令引导模块。该模块基于Senna-VLM框架构建,利用多图像编码策略和多视角提示机制,实现高效且全面的场景理解。
3D推理:如图2.e所示,我们首先使用一个BEV视觉编码器和一个适配器,将多视角图像编码为BEV空间中的特征图。然后,我们利用一组检测token(detection tokens)和地图token(map tokens)从BEV特征空间中学习向量化的地图元素和智能体运动信息。
统一扩散规划器:如图2.f所示,为了生成多样化且信息丰富的未来轨迹分布,采用了一种基于扩散的方法,该方法对带有高斯噪声的anchor proposal轨迹进行处理,条件扩散模型学习一种强大的去噪机制,能够捕捉未来运动的固有多模态性。为了增强去噪过程,我们分层地将丰富的场景语义(如BEV标记、地图标记和检测标记)整合到轨迹生成管道中。这确保了模型合成的轨迹与环境约束保持一致。在最终的条件解码步骤之后,通过一个轻量级的基于MLP的回归头,从精细化的轨迹标记中重构出多模态轨迹。这使得每种模式都能与可行、可解释且符合场景的运动模式对齐,从而提高了轨迹的真实性和对物理约束的遵守程度。
模仿策略学习损失:与其他基于扩散的模仿学习训练策略类似,我们的VLA解码器将个带有噪声的锚定轨迹作为输入,并预测分类得分和去噪后的轨迹,训练目标结合了轨迹重建和分类:
其中平衡了简单的L1重建损失和二元交叉熵(BCE)分类损失。
逆环境学习
奖励数据收集:为了开发一个有效的奖励世界模型(RWM),一个全面的数据集至关重要。IRL-VLA使用EPDMS的人类设计指标,该系统包含九个子分数:无责碰撞(No At-Fault Collision, NC)、可行驶区域合规性(Drivable Area Compliance, DAC)、驾驶方向合规性(Driving Direction Compliance, DDC)、交通灯合规性(Traffic Light Compliance, TLC)、自车进度(Ego Progress, EP)、碰撞时间(Time to Collision, TTC)、车道保持(Lane Keeping, LK)、历史舒适度(History Comfort, HC)和扩展舒适度(Extended Comfort, EC),以及一个加权总和分数,记为EPDMS。我们排除了EC,因为其需要对每个场景进行两次独立的模拟。这些指标提供了关于环境和智能体交互的详细洞察。然而,仅靠模仿数据往往缺乏多样性,因为它们无法充分捕捉在各种场景下的多样化轨迹。
为了增强分数和轨迹的多样性并确保模型的泛化能力,我们采用了三种策略。首先,我们记录扩散过程每一步的轨迹及其对应的EPDMS分数。其次,我们不使用固定的轨迹集,而是使用K-means聚类从人类演示数据中采样多种轨迹模式,K值范围从32到8192。第三,我们对NAVSIM数据集中的每个场景应用多个自车姿态进行模拟,以生成多样化的样本。
奖励世界模型:本文提出了一种奖励世界模型(RWM),作为一种轻量级、数据驱动的替代方案,以取代传统的仿真器,从而实现对自动驾驶系统的闭环评估,并通过逆向强化学习收集下游驾驶统计数据(如碰撞率、交通规则合规性和驾驶舒适度)。RWM通过直接基于真实世界演示建模奖励结构,消除了对计算密集型仿真器的需求,并缓解了仿真到现实(sim-to-real)的领域差距。其架构如图2(b)所示,与智能体类似,使用多视角相机信息和智能体预测的未来轨迹作为输入。RWM预测智能体在模拟环境中的未来奖励。
RWM使用基于规则的模拟器对给定轨迹的分数与环境之间的关系进行建模。NAVSIM模拟器生成三种类型的分数。EP分数衡量自车沿中心线的行进进度,范围为。DAC、TLC、TTC、LK和HC分数为二元值,取值为,因为它们评估自车是否遵守预定义的驾驶规则。NC和DDC分数取值为,因为当自车行为无责时,会施加较少的惩罚。这些指标的建模如下:
其中表示来自不同指标的奖励,表示轨迹特征,代表PDMS中的不同子指标。轨迹特征是从给定轨迹路径点上的BEV空间特征中提取的,作为轨迹、周围智能体和环境之间交互的隐藏表示。最终奖励计算为各个分量的加权和:
其中每个指标的权重遵循其他工作中EPDMS的定义。
奖励世界模型优化:RWM的训练目标是最小化预测分数与真实分数之间的误差。在每个训练步骤中,对一批轨迹及其对应的真实分数进行采样,以优化RWM。RWM的训练损失函数定义如下:
其中是第个轨迹在指标上的预测分数,是来自模拟器的相应真实分数。
基于RWM的强化学习
尽管模仿学习提供了一个强大的基线策略,但它本质上受限于离线演示中的偏差和不完全覆盖。为了克服这些局限性,我们采用基于RWM的闭环强化学习来微调VLA策略,如图2.c所示。我们采用近端策略优化(Proximal Policy Optimization, PPO)算法,因为其具有稳定性和样本效率——这对于在训练一个容易产生近似误差的学习型奖励模型时至关重要。
策略优化:策略优化过程包括从VLA策略中迭代采样轨迹,通过RWM对其进行评估,并更新策略参数以最大化预期的累积奖励。通过提供实时奖励反馈,RWM消除了对计算成本高昂的传感器渲染和基于物理的仿真的需求。这使得训练变得可扩展且高效,使VLA模型能够探索多样化的驾驶场景并优化多目标(安全、效率、交通规则合规性)。我们使用PPO算法和RWM来训练策略,选择PPO是因为其在与可能引入近似误差的学习型环境交互时具有稳定性和样本效率。优化过程遵循以下步骤:
借鉴DiffusionDrive,扩散策略可以被视为一个内部的马尔可夫决策过程,它从高斯噪声开始,逐步去噪以产生一个动作序列。具体来说,我们采样条轨迹并获得它们的扩散链。单条轨迹的扩散链表示为
其中是去噪步骤的总数。对于该链:
轨迹奖励由RMW预测,RMW通过NC、DAC、DDC、TLC、EP、TTC、LK、HC等子奖励评估每条轨迹,并返回一个EPDMS作为奖励。然后我们计算组标准化的优势:
扩散链中的每个条件步骤都遵循一个高斯策略:
其中是模型预测的均值,是固定的协方差。
因此,完整链在下的概率密度为
最后计算策略损失,其中包含一个行为克隆(behavior cloning)损失,以防止在探索过程中发生崩溃:
其中是折扣系数(用于缓解早期去噪步骤中的不稳定性),是从参考策略中采样的。
通过RWM辅助的强化学习,扩散规划器通过探索学习预测安全、舒适的轨迹,超越了单纯的模仿,从而将认知能力注入到我们的框架中。
最终的策略优化损失结合了强化学习目标和一个行为克隆项,以保持稳定性并防止对预训练策略的灾难性遗忘:
其中是行为克隆损失的权重。这种组合损失确保了稳定、有效的策略优化,利用RWM引导VLA模型实现最优的驾驶行为。
实现细节
IRL-VLA模型采用V2-99作为主干网络,并处理分辨率为256 × 704的多视角相机输入。模仿学习阶段(IRL-VLA-PT)使用AdamW优化器进行100个周期的预训练,学习率为10⁻⁴,批量大小为32。奖励世界模型(Reward World Model, RWM)通过逆向强化学习进行训练,对于EPDMS中取值范围为{0, 1}的指标,使用二元交叉熵损失;对于取值范围为[0, 1]的指标,使用均方误差损失;对于取值范围为{0, 0.5, 1}的指标,使用交叉熵损失。训练过程利用了专家演示数据和模拟器反馈。在强化学习阶段(IRL-VLA-RL),我们采用近端策略优化(Proximal Policy Optimization, PPO)算法,其截断参数= 0.2,折扣因子= 0.99,广义优势估计(Generalized Advantage Estimation, GAE)参数= 0.95。训练在8块NVIDIA A100 GPU上进行。
实验结果分析
在我们的实验中,我们重点关注以下几个问题:
- IRL-VLA在常见的开环和闭环自动驾驶基准测试上的表现如何?
- 所提出的技术和实现细节如何影响IRL-VLA的性能?
实验设置
数据集与指标:NAVSIM是一个基于OpenScene(nuPlan的新版本)构建的、以规划为导向的自动驾驶数据集。它提供了八个1920×1080的相机和一个由五个传感器在当前及前三帧中聚合而成的融合激光雷达点云。该数据集被划分为navtrain(1,192个训练场景)和navhard(136个评估场景)。
NAVSIM基准测试提供了一个非交互式仿真环境,并采用扩展预测驾驶员模型分数(Extend Predictive Driver Model Score, EPDMS)作为其闭环规划指标:
其中,EPDMS集成了两个子指标组: 和 。该指标通过结合无责碰撞(NC)、可行驶区域合规性(DAC)、驾驶方向合规性(DDC)、车道保持(LK)、碰撞时间(TTC)、历史舒适度(HC)、扩展舒适度(EC)、交通灯合规性(TLC)和自车进度(EP)来生成一个综合的闭环规划分数。
与SOTA对比
表1展示了IRL-VLA在Navhard基准测试上与基线方法的性能对比。我们的预训练模型(IRL-VLA-PT)在多个指标上取得了具有竞争力的结果,EPDMS得分为74.4,优于DiffusionDrive(63.2)、WOTE(66.7)和GTRS-Aug(74.3)等几种最先进的方法。与GTRS-Dense和GTRS-Aug等基于评分的模型相比,这些模型通过评分机制在提升安全指标(如无碰撞NC,GTRS-Aug为98.9)的同时,牺牲了舒适性相关分数(如扩展舒适度EC,GTRS-Aug为54.2),而我们的IRL-VLA-PT模型在保持近乎相当的安全性能(NC:98.3 vs. 98.9)的同时,显著提升了自车进度(EP:83.9 vs. 76.1)和扩展舒适度(EC:76.0 vs. 54.2)。这种平衡凸显了我们的VLA架构在优化安全性和舒适性方面的有效性,且无需依赖显式的评分机制。
消融实验
为了评估所提出的技术和实现细节对IRL-VLA性能的影响,我们进行了两项消融研究。这些研究考察了最佳VLA结构、奖励世界模型的效果,以及结合强化学习(RL)和模仿学习(IL)的重要性。
分层推理扩散VLA智能体的消融研究:表2展示了我们提出的IRL-VLA分层推理扩散VLA智能体的消融研究。仅使用3D推理并通过人类驾驶演示数据进行训练时,模型在Navhard-real基准测试上取得了70.0的EPDMS。引入语义推理模块和我们的高层驾驶指令查询后,EPDMS提升了1.4。最后,引入用于连续轨迹预测的扩散规划器后,EPDMS进一步达到了74.4,提升了3.0。这证明了我们分层推理扩散VLA方案的价值,该方案在产生更安全、更舒适的驾驶行为方面具有强大的预训练性能。
模仿学习损失权重的消融研究:表3考察了模仿学习损失权重的影响。当时,模仿学习与强化学习贡献相等。当时,模仿学习项会减弱,导致训练崩溃。最后,将设置为0.5,在模仿学习和强化学习之间实现了最佳权衡,从而获得了最高的74.9 EPDMS。
结论
在本文中,我们提出了IRL-VLA,一种新颖的闭环强化学习框架,该框架通过奖励世界模型(Reward World Model)为端到端自动驾驶中的视觉-语言-动作(VLA)模型服务。我们的三阶段方法——模仿策略学习、逆向环境学习和闭环强化学习——解决了开环模仿学习和基于仿真器训练的局限性。通过使用语义和3D推理模块以及基于扩散的规划器对VLA模型进行预训练,通过逆向强化学习构建一个轻量级的奖励世界模型(RWM),并使用PPO微调策略,IRL-VLA在NAVSIM v2 CVPR挑战赛基准测试上取得了最先进的性能,获得了45.0 EDPMS,并在CVPR 2025自动驾驶大奖赛中获得亚军。同时,在NAVSIM Navhard real基准测试上也表现出最先进水平,得分为74.9。据我们所知,IRL-VLA是首个在不依赖仿真器的情况下、结合传感器输入的闭环VLA方法。我们的贡献包括一个开创性的VLA模型强化学习框架、一个用于可扩展奖励计算的高效RWM,以及所证明的通用性,为闭环自动驾驶的未来发展铺平了道路。
#NVIDIA英伟达进入自动驾驶领域二三事
如今Orin订单火爆,上汽的R和智己,理想L9、蔚来ET7、小鹏新一代P7,威马M7、比亚迪、沃尔沃XC90,还有自动驾驶卡车公司智加科技,Robotaxi等众多明星企业Cruise、Zoox、滴滴、小马智行、AutoX、软件公司Momonta等等,都搭载Orin平台进行开发。
但谁还记得黄仁勋NVIDIA公司创始人兼首席执行官起初并没有看得上自动驾驶领域呢。
1 特斯拉与Mobileye的裂缝
2013 年 9 月,马斯克公开宣布特斯拉正式加入到自动驾驶赛道,而特斯拉也开始招聘自动驾驶领域的工程师——马斯克强调,特斯拉将自行内部开发这一技术,而不是采用外部任何其他公司的技术。
但在当时的市面上却没有能够支持特斯拉进行自研开发的自动驾驶芯片,无奈之下,特斯拉只得选择与当时地位十分强势的 Mobileye 合作。与 Mobileye 的其他车企客户不同,特斯拉并非是被动采用 Moblileye 的方案,而是基于 Mobileye 的方案在数据积累和软件算法层面做了很多独到的增强型创新,让 Autopilot 具备自学习(self-learning)的能力。举例来说,当时特斯拉在车内增加了 Fleet Learning 功能,其本质就是在 Autopilot 的动作与人类的实际决策不一致时,能够通过软件记录并学习人类操作;这个功能,已经有点类似于特斯拉后来推出的「影子模式」。
2015 年 4 月,马斯克还专门从微软挖来了一个名为 David Nister 的计算机视觉技术大牛,成立了 Tesla Vision 团队。
自然,马斯克的做法遭到了 Mobileye 的强烈反对,因为 Mobileye 希望把芯片和算法都控制在自己手中,而不希望车企具备自研算法的能力。
为此,Mobileye 和特斯拉在 2015 年闹了不少矛盾,强势的 Mobileye 要求特斯拉暂停 Tesla Vision,否则就断供技术支持。
马斯克再次意识到与Mobileye的合作不可能持久,也希望找到一颗能够提供足够算力、但同时也能够允许特斯拉自研视觉算法的芯片,于是他找到了本就是特斯拉供应商的英伟达(2012 年量产发布的特斯拉 Model S,其 12.3 英寸液晶仪表盘和可触控的 17 英寸中控信息娱乐屏幕使用两颗不同的英伟达 Tegra 芯片)。
2 英伟达有意自动驾驶领域
2012年,对于端侧部署的执念,让黄仁勋开始寻求不同方向的落地机会,包括安防、机器人、汽车等领域。在看了一圈之后,考虑到英伟达芯片的高功率问题,黄仁勋认定:基于电动汽车的自动驾驶是英伟达在端侧最好的方向。
在 2012 年到 2013 年之间,有一些团队找到英伟达,表示要通过 GPU 做基于深度学习的计算机视觉。这让黄仁勋意识到,深度学习可能会迎来爆发,而英伟达的 GPU 技术也会因为对深度学习和计算机视觉算法的支持而开辟出一个广阔的市场。
2013 年 11 月,英伟达财报电话会议,黄仁勋在谈到汽车业务的发展时表示:
其实考虑汽车的方式,应该是自动化。如今的汽车是联网汽车,因此数字计算比以往任何时候都更加重要。我们的数字集群将为汽车产业提供现代化驾驶体验的机会,而并非是使用传统的机械仪表。 同时,因为 GPGPU 的存在,我们处理器中的可编程 GPU 将会使各种新的驾驶员辅助功能成为可能。基于计算机视觉、驾驶辅助、人工智能等方面的能力,我们将会让汽车变得更加安全,我们让汽车驾驶变得有趣。
2015 年 1 月,英伟达发布 DRIVE 品牌和它旗下的两款汽车计算平台,其中 DRIVE PX 基于 Terga X1 芯片和 Maxwell GPU,拥有超过 1 TOPS 的算力,而且可以支持计算机视觉和机器学习技术。
据说,2016 年 1 月,黄仁勋带着英伟达的初代自动驾驶计算平台 DRIVE PX,率领团队来到特斯拉位于加州的办公室,见到了马斯克。马斯克用它跑了几遍当时 Autopilot 团队训练出来的一个神经网络模型。
2016 年年初,英伟达发布了 DRIVE PX 2——黄仁勋称之为「世界上第一个面向自动驾驶汽车的超级计算机」。
3 英伟达与特斯拉的双向奔赴- 英伟达牵手特斯拉
2016 年 5 月,一起与 Autopilot 密切相关的 Model S 事故发生。两个月后,Mobileye 宣布终止了与特斯拉之间的合作。
可以想到,马斯克选择了英伟达作为新的合作伙伴。
2016 年 10 月,特斯拉宣布:包括 Model 3 在内的所有量产车型将会搭载能够实现完全自动驾驶(Full Self-Driving)能力的硬件(也就是 HW2.0),其中传感器包括 8 颗环视摄像头、12 颗超声波雷达和一颗前向雷达。
与此同时,HW2.0 还内置一个算力比前代产品增加了四十多倍的计算设备(即英伟达 DRIVE PX 2),它能够运行特斯拉最新开发的面向 Autopilot 进行视觉、超声波和雷达融合处理的神经网络。需要说明的是,虽然也叫 DRIVE PX 2,但特斯拉所用的这个版本是它与英伟达联合定制的。
4 特斯拉不是英伟达的终点
2017 年底,特斯拉对外公开自研芯片计划。
但英伟达也不是全无准备。
在把 Drive PX 2 成功地落地到特斯拉上之后,黄仁勋一直在紧锣密鼓地准备下一代产品。与此同时,英伟达也花了大量的=功夫,不断拓展汽车领域朋友圈。根据英伟达在 GTC 2017 大会上的统计,与英伟达就自动驾驶解决方案达成合作关系的公司达到了 225 家——除了汽车企业、零部件供应商、互联网公司和图商之外,还有一些创业公司。
2018 CES,黄仁勋放出了英伟达在自动驾驶领域的一枚重磅产品:全新的自动驾驶 SoC 平台 DRIVE Xavier。与 DRIVE PX 2 相比,DRIVE Xavier 是一颗集成了多个模块的自动驾驶 SoC,在计算性能显著提升的同时,功耗也减少了很多。
2018 年 8 月17日,马斯克在推特上称:英伟达做出了非常棒的硬件,对黄仁勋和他的公司有很高的敬意;但我们的硬件需求非常独特,需要跟我们的软件紧密地匹配。
2018 年 12月10日,马斯克在推特上称:自动驾驶需要特斯拉HW3,这个平台将取代英伟达,并具有10倍的图像处理能力。
2019 年 4 月,在特斯拉自动驾驶日上,被马斯克称之为「FSD Computer」的 HW3 正式发布——按照马斯克的说法,这是「世界上专门面向自动驾驶x之目的而设计的最先进的计算机」。
至此,英伟达与特斯拉在智驾平台上的合作告一段落。
#GMF-Drive
全面超越DiffusionDrive!中科大GMF-Drive:全球首个Mamba端到端SOTA方案
端到端自动驾驶已经成为行业中普遍认同的方案,它能够直接将原始传感器输入映射成为驾驶动作,从而减少对多阶段中间表示的依赖以及信息损失。最新的工作中,比如像 DiffusionDrive 和 GoalFlow 这样的扩散式规划模型,展现出了在生成多样且高质量驾驶轨迹方面的强大能力。展开来说,VLA的架构也可以基于VLM+轨迹生成的模块实现,所以近来的很多工作都聚焦在端到端和、VLA两个大方向上。
然而,尽管轨迹规划模块取得了显著进步,一个关键的瓶颈依然没有被充分解决:多模态融合架构(multi-modal fusion architecture),也就是 如何整合不同传感器的异构输入。当前的主流方法大多采用 TransFuser 风格的传感器融合架构,这类方法通常是直接将图像特征与 LiDAR 特征拼接,然后通过自注意力机制进行处理(如图 1a)。
这种方式主要存在两个问题:
- 信息损失:传统基于直方图(histogram-based)的 LiDAR 预处理方法,会将空间网格中点的高度进行平均,从而丢失了关键的 3D 几何信息,比如物体形状和结构的重要线索。这会限制模型的感知能力。
- 缺乏空间感知:标准的自注意力机制在处理鸟瞰图数据时缺少足够的空间先验,它会对所有位置均匀地关注,而忽略了驾驶场景中的重要空间规律,例如前方区域通常比后方区域更重要,近处的障碍物比远处的更需要优先处理。
作者的实验还揭示了一个矛盾:相比单模态架构,现有的多模态融合架构在性能上提升有限,这说明 TransFuser 风格的方法更像是在做简单的特征拼接,而不是结构化的信息整合。
为了解决这些问题,中科大和中国矿业大学的团队提出了 GMF-Drive,它包含三个模块:
- 数据预处理模块:将原始点云处理为增强几何信息的 14 维柱状表示,保留丰富的几何场景信息。
- 感知模块:引入 GM-Fusion 模块,利用具备空间感知能力的状态空间模型(Spatial-aware State Space Model, SSM),在保持全局感受野的同时实现线性 复杂度的空间建模。
- 轨迹规划模块:采用类似 DiffusionDrive 的截断扩散策略(truncated diffusion),结合锚点轨迹(anchor trajectories)生成合理的驾驶轨迹。
基于上述分析,作者的主要贡献如下:
- 设计了一种几何增强的点云表示,并证明了它在多模态融合中的有效性。
- 提出了一种新型的融合架构 GM-Fusion,基于空间感知的状态空间模型(BEV-SSM),在自动驾驶任务中实现了比传统 Transformer 更优的精度。
- 在 NAVSIM 基准测试中通过大量消融实验验证了各个组件(几何增强柱状表示、BEV-SSM、分层可变形跨模态注意力)的有效性,证明它们对最终的高精度结果都有显著贡献。
- 论文题目: GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving
- 论文链接:https://arxiv.org/pdf/2508.06113
相关工作回顾
端到端自动驾驶
端到端自动驾驶的发展已经从早期基于 CNN 的方法,演进到更先进的多模态系统。早在 1997 年,Chua 等人就证明了 CNN 可以直接将图像映射到转向指令,但这些方法的泛化能力十分有限。条件模仿学习(Conditional Imitation Learning)提升了性能,例如 CILRS 利用导航指令来引导驾驶策略,而 LBC 则引入了带有“特权信息”的教师-学生学习框架。
将表示方式转向鸟瞰图是一个重要的里程碑。例如 TransFuser 将图像和 LiDAR 数据结合在一起,通过 Transformer 进行融合,启发了许多新的 BEV 方法。UniAD 将多个感知任务整合到一起以提升规划效果,VAD 引入了高效的向量化表示。近期的研究重点转向多模态决策,例如 SparseDrive 探索稀疏表示,而 GoalFlow 可以生成多样化的轨迹。然而,大多数方法依然依赖计算量庞大的 Transformer 架构,作者的工作则尝试用更高效的模型来解决这个问题。
自动驾驶中的多模态融合
多模态融合在自动驾驶中的方法主要分为三类:早期融合(early fusion)、后期融合(late fusion)、以及中期融合(intermediate fusion)。
- 早期融合:在原始传感器数据阶段直接融合,但不同模态数据格式差异较大,处理困难。
- 后期融合:在高层决策阶段进行融合,但错过了跨模态特征交互的机会。
- 中期融合:目前最常用的方法,在中间特征层面使用 Transformer 进行结合。
例如,TransFuser 在多个尺度上融合图像和 LiDAR 数据,通过注意力机制实现,性能优于早期的基于几何的方法。之后的 BEVFusion 和 FUTR3D 在共享特征空间中提升了融合效果。但这些方法依赖计算量庞大的自注意力机制,迫使它们只能使用低分辨率特征,从而丢失了重要细节。
作者的工作不同于以 Transformer 为核心的范式,提出了 GM-Fusion,利用具备空间感知能力的状态空间模型(Spatial-aware State Space Model, SSM),在保持长程依赖建模能力的同时,实现了线性复杂度的计算。
GMF-Drive算法详解
模型概述
GMF-Drive(见图 2)使用两个独立的 ResNet-34 主干网络分别对相机图像和几何信息丰富的 14 维 LiDAR 柱状表示进行编码。在四个尺度上,作者的 GM-Fusion 模块通过通道注意力(Channel Attention)、BEV-SSM(用于线性复杂度的空间建模)以及 分层可变形跨注意力(Hierarchical Deformable Cross-Attention, HCA) 来融合多模态信息。融合后的特征与自车状态及锚点轨迹结合后,输入到扩散解码器,通过截断扩散生成最终轨迹。
几何增强的柱状表示
传统的多模态融合方法在将 LiDAR 点云离散化为体素时,常常会丢失关键的几何信息。为了解决这个问题,作者提出了一种 14 维柱状表示,在保持计算效率的同时,完整保留 3D 几何特征。
给定点云 ,其中每个点 包含三维坐标、反射强度和雷达环索引,作者首先将 BEV 空间离散化为规则的柱状网格,分辨率为 ,其中 表示每米的像素数。
对于网格位置 的每个柱状单元,作者提取一个 14 维特征向量 ,包括点特征池化结果和统计特征:
(1)点特征池化
对于柱状单元 中的点 ,作者计算柱心 和平均高度 。相对偏移为:
然后对增强后的点特征做最大池化:
(2)统计特征
为了捕捉直方图方法无法体现的局部几何结构,作者计算反射强度的均值与方差:
此外,作者基于 PCA 计算四个几何形状描述符 至 ,包括线性度(linearity)、平面度(planarity)、球形度(sphericity)和各向异性(anisotropy),分别用于识别杆状物体与边缘、检测地面与墙面、衡量体积散布程度,以及区分结构化物体与噪声。
这种 14 维表示 保留了传统直方图方法中常被丢弃的关键信息,不仅包含高度变化和强度模式,还包括局部表面几何,从而让模型更好地区分点密度相似但几何结构不同的物体,提升感知精度和轨迹规划的安全性。
Gated Mamba Fusion模块
GM-Fusion 模块通过三部分来整合多模态特征:
- 门控通道注意力(Gated Channel Attention):对齐并融合相机与 LiDAR 特征。
- BEV-SSM:利用方向感知(direction-aware)与双扫描模式(dual-pattern scanning)并结合距离衰减(distance decay)高效建模空间依赖。
- 分层可变形跨注意力(HCA):查询多尺度图像特征,进一步精细化融合结果。
BEV 位置编码
标准位置编码往往不能有效表示自动驾驶场景中复杂的空间结构。作者提出一种 自车中心极坐标系 的编码方法,结合距离和方向信息。对于每个空间位置,作者计算其与自车原点的欧几里得距离和方位角(使用 atan2
计算)。这些极坐标通过多频率正弦编码(sine-cosine)映射到高维空间,波长呈指数衰减。
关键创新在于维度交错(dimensional interleaving),即将距离和角度编码交替排列,而不是分块拼接,从而在每个特征层都强制联合学习空间大小与方向信息。
双扫描模式
为了将二维 BEV 特征序列化供顺序处理,作者使用两种互补扫描模式:
- 光栅扫描(Raster Scan):按行依次从左到右扫描,适合捕捉沿行驶方向的长程依赖。
- Z 字扫描(Zigzag Scan):蛇形路径扫描,保持局部邻近像素在序列中的连续性,有助于保留局部几何细节。
两者互补,使模型既能获得全局场景结构(光栅扫描)又能保留局部细节(Z 字扫描),BEV-SSM 会并行处理并自适应融合它们。
AwareSSM 模块
AwareSSM 处理序列化后的 BEV 特征,包含方向感知分支和距离衰减分支,再经过并行状态空间模型(SSM)生成空间信息增强的输出。
方向感知通过三个可学习的状态转移矩阵实现:
根据扫描模式组合:
其中权重 按方向重要性设定,前向最高,侧向次之,后向最低。
距离衰减机制为:
其中 为自车到位置 的距离, 为网格最大距离, 为可学习参数。
并行状态更新公式为:
其中 、 依赖输入, 为第 步的状态转移矩阵。
自适应特征融合模块(Adaptive Feature Fusion Module)
该模块会根据全局场景上下文自适应调整来自不同扫描模式的特征权重,避免简单平均。首先聚合全局上下文,再通过小型神经网络生成归一化融合权重,然后加权合成输出特征,实现对不同路况下特征贡献度的动态调整。
实验结果分析
实验设置
作者在公开可用的 NAVSIM 数据集上进行了实验。为了确保公平比较,作者采用了与 DiffusionDrive 相同的评估指标。GMF-Drive 基于 DiffusionDrive 的代码库,将其中的 TransFuser 模块替换为作者的 GM-Fusion 架构。
定量比较
如表 1 所示,GMF-Drive 在 NAVSIM navtest 集上的 PDMS 得分达到 88.9,在 ResNet-34 主干和相同传感器输入条件下,较之前最佳的 DiffusionDrive 提高了 0.8 分,证明了 GM-Fusion 架构相较于传统基于 Transformer 的融合方式的优越性。
作者方法的优势在一些关键子指标上尤为明显。GMF-Drive 在可行驶区域符合率(DAC)上得分 97.3(相比 DiffusionDrive 提升 +1.1),验证了保留精细空间特征能够提高场景理解能力。它还在自车推进率(EP)上获得了 83.3 的最高分,表明高效的融合提升了安全性和驾驶效率。
此外,GMF-Drive 显著超越了基于轨迹词汇的方法。它比一个经过大量调优、额外使用规则监督和加权置信度后处理的 Hydra-MDP 变体高出 2.3 PDMS 分。
消融实验
整体系统组件分析
如表 2 所示,基线 DiffusionDrive 模型经过多个关键创新的逐步增强,每一步都在评估指标上带来了可衡量的性能提升。
首先,将基线 LiDAR 编码替换为作者的 8 维 pillar 表示,使得 PDMS 从 88.10 提升到 88.61,验证了更丰富的几何输入即使在标准融合模块下也能提升感知性能。
接着,集成作者的 Gated Mamba Fusion(GMF)模块后,PDMS 进一步提升至 88.82。尽管 EP 略有下降,整体性能的提升表明作者的空间感知融合机制能够有效利用这些几何特征。
最后,采用完整的 14 维 pillar 表示使 PDMS 达到最高的 88.85。相较于 8 维版本的增益较小(+0.03),但在所有指标上均带来了一致的小幅提升。这表明 8 维表示捕获了最关键的几何信息,而额外的统计特征提供了细微的优化。
总体而言,这些组件相较于基线带来了 0.75 分的 PDMS 提升,证明了数据表示和融合架构对于实现最优性能都至关重要。
融合架构设计分析
表 3 对融合策略的系统性评估为作者的架构设计提供了有力证据。从基线自注意力(SA)机制开始,切换到跨注意力(CA)带来了可观的性能提升,PDMS 从 88.10 提升到 88.39。这一提升源于跨注意力在相机和 LiDAR 模态间建立直接特征对应关系的优势,相较于基线的拼接融合,跨模态交互更有效。
C-EffiMamba 的方法尝试用通用状态空间模型替代 Transformer 架构。PDMS 降至 88.02,表明简单套用标准序列模型无法捕捉驾驶场景固有的复杂空间关系。
CA+EffiMamba 的提升有限(88.04),但其分层版本(HCA+EffiMamba)显著提升至 88.44。性能差距突出了多尺度处理在传感器融合中的重要性,分层注意力机制能在不同空间分辨率下自适应聚焦于相关区域,同时保持上下文感知能力。
最大提升来自 HCA+BEV-SSM 配置,它引入了作者专门优化的 BEV 状态空间模型,PDMS 达到 88.69。这种针对 BEV 优化的扫描模式与空间先验对于处理 BEV 表示特别有效,从而在轨迹预测与障碍物检测任务中获得更优表现。
GM-Fusion 组件分析
表 4 量化了 GM-Fusion 各组件的贡献。仅添加分层可变形跨注意力(HCA)即可将 PDMS 从 88.10 提升至 88.46,得益于 DAC 和 EP 的提升。
将 HCA 与通道注意力结合进一步提升到 88.67,主要提升了 NC 和 TTC,说明在融合前显式对齐相机与 LiDAR 特征的重要性。
将 HCA 与作者的 BEV-SSM 结合也达到了类似的 88.69,说明 BEV-SSM 的空间建模能力与通道对齐在融合中同样有效,同时由于其线性复杂度而具备更高计算效率。
最后,完整集成所有三个组件的 GM-Fusion 模块,PDMS 达到最高的 88.85。最终的性能提升验证了通道注意力与 BEV-SSM 的互补性:前者跨模态对齐特征,后者在融合表示中建模空间依赖,两者的协同作用是作者取得最优性能的关键。
定性比较
为了直观展示作者方法的优势,作者在图 4 中给出了轨迹的可视化比较。
在左转场景 (a) 中,DiffusionDrive 生成的轨迹偏离了真实轨迹,表现出方向不一致。在直行场景 (b) 中,基线方法出现了意外的左偏;在右转场景 (c) 中,DiffusionDrive 生成的轨迹保持直行,与所需的轨迹几何不符。这些模式表明,基于 Transformer 的融合框架在空间推理方面存在局限。
相比之下,GMF-Drive 在所有场景中都实现了准确的路径对齐。作者的方法能够正确完成左转 (a) 和右转 (c),同时在直行 (b) 中保持稳定的直线运动。
这种表现直接得益于作者的架构创新:几何增强的柱状表示保留了关键的 3D 结构信息,而 GM-Fusion 通过方向扫描序列实现了空间感知的特征融合,并能在多模态处理过程中自适应地优先关注前方区域,从而生成更符合空间约束的轨迹。
结论
在这项工作中,作者提出了 GMF-Drive —— 一个新型的端到端自动驾驶框架,它将几何增强的柱状表示与具备空间感知能力的门控状态空间模型相结合,用于多模态感知融合。该融合方式有效替代了当前依赖 Transformer 的融合框架。通过在 NAVSIM 基准上的全面实验,作者的消融研究验证了融合架构设计的合理性,而定量结果表明,GMF-Drive 在性能上达到了新的最优水平。