小鹏汽车在 VLA(视觉 - 语言 - 动作)算法模型框架细节与原理

小鹏汽车的 VLA(视觉 - 语言 - 动作)算法模型框架是其端到端自动驾驶系统的核心,融合了多模态感知、语言推理与动作生成能力。以下是其技术细节与原理的深度解析:

一、整体架构:混合式端到端设计


小鹏 VLA 采用云端基座模型 + 车端蒸馏模型的混合架构,兼顾超大规模训练与实时推理需求:

  1. 云端基座模型(720 亿参数):
    • 基于阿里巴巴 Qwen2.5-VL 大模型,整合视觉理解、链式推理(CoT)和动作生成能力。
    • 通过 2 亿 Clips 视频数据(含多摄像头、激光雷达、毫米波雷达)训练,支持复杂场景的长时序推理(如施工路段提前 5 秒预判)。

  2. 车端蒸馏模型(30 亿参数):
    • 通过知识蒸馏保留云端模型 90% 以上的推理能力,同时支持 INT8 量化和剪枝,适配图灵 AI 芯片的实时推理需求。
    • 采用动态路由机制LoRA 低秩适应技术,在消费级 GPU 上实现快速微调(如多目标清理任务成功率提升 20.4%)。


二、核心模块技术细节


1. 视觉处理:前景聚焦的动态 Token 压缩

  • 视觉编码器
    • 采用Grounded-SAM(由 IDEA 研究院提出)进行前景分割,生成细粒度掩码(如车辆、行人、交通标志)。
    • 结合ViT(视觉 Transformer)与 CNN 混合架构,处理 12 路摄像头、激光雷达和毫米波雷达数据,生成 BEV(鸟瞰图)特征。

  • ReconPruner 剪枝器
    • 通过 MAE(掩码自动编码器)风格的像素重建任务,将视觉 Token 从 3249 个压缩至 812 个,FLOPs 降低 7.5 倍,同时保持碰撞率等关键指标优于未剪枝基线。
    • 对抗式前景 - 背景重建策略:强制高分 Token 重建前景(如障碍物),低分 Token 重建背景(如天空),提升 Token 筛选准确性。


2. 语言推理:导航引导的语义解析

  • 语言模块
    • 基于 Qwen2.5-VL-3B 模型,通过导航引导推理(NSFT)和偏好优化(NPO)增强超视距决策能力。
    • 解析自然语言指令(如 “避开施工路段”),生成语义控制逻辑,并与全局导航信息(如高精地图路径)动态对齐。

  • NavigScene 数据集
    • 融合 nuScenes、NAVSIM 等数据,包含 24.1 万张带前景掩码的图像,标注聚焦于导航引导的自然语言指令(如 “前方 300 米右转”)。
    • 通过导航引导偏好优化(NPO),建立摘要答案与导航指令的相关性,提升 BVR(超出视觉范围)推理能力。


3. 动作生成:连续控制与安全校验

  • 动作解码器
    • 采用扩散模型生成连续动作序列(如方向盘角度、油门 / 刹车力度),支持机械臂协同(如充电机器人对接)和实时避障。
    • 在双臂协作任务中,动作生成延迟低至 20ms,推理速度达 6Hz,任务成功率 97.1%。

  • 安全冗余机制
    • 动作序列生成后,通过符号化模块(如碰撞检测、车道保持规则)进行安全校验,平衡泛化能力与可解释性。


4. 多模态融合:时空推理与跨模态对齐

  • 时空推理模块
    • 结合 Transformer 解码器与 LSTM,对多帧视觉数据进行时序建模,预测未来 5 秒内的场景变化(如车辆变道、行人横穿)。
    • 在无保护左转场景中,通过时空推理提前规划防御性策略,实现 “无感避险”。

  • 跨模态对齐
    • 通过交叉注意力机制,将视觉特征(如 “红色信号灯”)与语言语义(如 “停车”)动态关联,实现指令与场景的精准匹配。
    • 例如,在 ETC 场景中,模型通过视觉识别 “ETC 专用道” 文字与绿灯信号,结合语言指令 “绿灯可通行”,生成缓行至道闸的动作。


三、训练与优化策略


  1. 数据构建
    • nuScenes-FG 数据集:基于 nuScenes 数据集,使用 Grounded-SAM 生成 24.1 万张带前景分割掩码的图像,覆盖六个车载摄像头视角。
    • 对抗性数据增强:通过前景 - 背景重建对抗训练,强制模型区分驾驶相关的关键区域(如车道线、行人)。

  2. 训练目标
    • 重建损失约束:通过 MAE 风格的像素重建任务,优先保留前景区域 Token,抑制背景冗余信息。
    • 强化学习优化:在云端基座模型训练中引入强化学习(RL),优化复杂场景(如异形障碍物避让)的决策可靠性。


四、工程落地:芯片与算法的深度协同


  1. 自研图灵 AI 芯片
    • 3 颗图灵芯片提供 2250TOPS 有效算力(等效 9 颗英伟达 Orin-X),支持车端大模型实时运行。
    • 采用特定领域架构(DSA),算力利用率达 100%,推理延迟降低 60%,图像处理速度提升 75%。

  2. 实时性保障
    • 通过Token 压缩技术硬件加速,在复杂路况下实现 0.3 秒决策延迟,支持 10Hz 以上的推理速度。
    • 例如,在机械臂协作任务中,动作生成延迟低至 20ms,满足工业级实时性需求。


五、功能验证与场景应用


  1. 量产功能落地
    • 全场景 VLA 系统:支持车位到车位记忆泊车(斜角≤45° 的非标准车位)、主动安全强化(异形障碍物识别准确率提升 30%)等功能。
    • 人机共驾模式:驾驶员介入后 0.5 秒内无缝恢复 NGP,支持低速跟车、匝道汇入等灵活协作。

  2. 极端场景表现
    • 在夜间、雨天、逆光等复杂光线环境中,结合鹰眼 AI 纯视觉摄像头方案,成像质量提升显著,动态范围支持 24bit 处理位宽。
    • AEB 自动紧急制动系统在 130km/h 时速下实现行业最高刹停性能,碰撞风险降低 90% 以上。


六、技术创新与行业定位


  1. 核心突破
    • 即插即用剪枝框架:FastDriveVLA 通过基于图像复原的 Token 剪枝技术,在 nuScenes 开环规划基准上实现 SOTA 性能,同时降低 7.5 倍计算量。
    • 导航引导推理:通过 NavigScene 数据集和 NPO 方法,将全局导航信息(如地图路径)与局部传感器数据对齐,解决超视距决策问题。

  2. 差异化路线
    • 与特斯拉 FSD 的纯端到端架构不同,小鹏采用端到端 + 符号规则混合模式,在 VLA 生成动作序列后,仍通过碰撞检测等符号化模块进行安全校验,平衡泛化能力与可解释性。


总结


小鹏 VLA 模型框架的核心在于多模态融合、轻量化优化与硬件协同。其技术路径体现了 “开源模型复用 + 自研工程落地” 的混合策略,既依托 Qwen-2.5VL 等基石模型,又通过 ReconPruner 剪枝器、图灵芯片适配等创新实现车规级应用。这一框架不仅支撑了小鹏 G7 Ultra 等车型的量产落地,更标志着中国智能汽车产业从 “整合供应商方案” 向 “核心底层自研” 的关键跃迁。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/96522.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/96522.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

京东商品详情 API 全解析:合规对接与 B2C 场景实战指南

在 B2C 电商运营中,商品详情数据是支撑店铺管理、库存调控、营销决策的核心基础。京东商品详情 API 作为官方合规的数据获取通道,不仅能稳定返回商品标题、价格、库存等关键信息,还针对 B2C 场景新增了预售锁库、次日达标识等特色字段。本文从…

【Visual Studio 2017 和 2019下载】

Visual Studio 2017 和 2019下载VS2017下载地址:VS2019下载地址:VS2017下载地址: Visual Studio 2017 Community 链接 Visual Studio 2017 Enterprise 链接 VS2019下载地址: Visual Studio 2019 Community 链接 Visual Studio …

Python 轻松实现替换或修改 PDF 文字

在日常开发或文档处理过程中,经常会遇到需要对 PDF 文档中的文字进行修改的场景。例如更新合同条款、修正报表数据,或者批量替换文件中的特定内容。由于 PDF 格式以固定排版为特点,直接修改文字不像 Word 那样直观,因此需要借助专…

CI/CD流水线优化实战:从30分钟到5分钟的效能革命

关键词:CI/CD优化、GitHub Actions、Jenkins、自动化部署、流水线加速 一、引言:CI/CD流水线为何需要优化? 在现代软件开发中,CI/CD(持续集成/持续交付)已成为DevOps实践的核心环节。然而,许多团队的流水线存在效率低下问题,​​平均构建时间超过30分钟​​,严重制约…

神经网络矩阵的点乘与叉乘概述

点乘点乘:两个矩阵对应位置元素相乘(逐元素级 element - wise)实现方式:可通过 * 和 torch.mul(x, y) 函数实现(含广播机制)模型符号:一个圆圈中间加一个实心点叉乘叉乘:传统线性代数…

PHP学习(第三天)

网站访问流程 一、静态网站访问流程(如 index.html)1. 流程是怎么样的? 静态网站的页面内容固定,不需要服务器做额外计算,直接把文件返回给浏览器。访问流程大致如下:用户输入网址或点击链接 用户在 个人设…

【办公自动化】如何使用Python脚本自动化处理音频?

在日常办公和内容创作中,音频处理是一项常见需求。无论是处理会议录音、制作播客、编辑音乐背景,还是进行语音识别,Python都能帮助我们高效地完成这些任务。本文将介绍如何使用Python实现音频处理自动化,包括格式转换、音频拼接、…

OpenHarmony AVSession深度解析(二):从本地会话到分布式跨设备协同的完整生命周期管理

1. 系统概述 AVSession是OpenHarmony多媒体框架中的核心组件,负责管理音视频会话的生命周期、状态同步和跨设备协同。它提供了统一的接口供应用创建会话、设置元数据、控制播放状态,并支持分布式场景下的会话迁移。 2. 架构设计 2.1 核心类结构 #mermaid-svg-QwwujBwB3Wo6…

架构思维:在复杂系统中寻找秩序的底层逻辑

在商业世界中,架构师常被视为神秘的存在。懂架构不一定是大师,但,大师一定善于架构,善于拨开迷雾,看透全局。他们穿梭于代码与流程之间,用看不见的线条编织着数字世界的经纬。 架构天然的使命就是面对复杂…

国产凝思debian系Linux离线安装rabbitmq教程步骤

系统环境 由于国内访问debian的apt源太慢了,花了很多很多时间后,反而超时报错。所以采用离线安装方式。 uname -a Linux bogon 4.19.0-11-linx-security-amd64 #1 SMP Linx 4.19.146-1linx10 (2023-05-30) x86_64 GNU/Linux下载安装包 在有网络的电脑…

开发避坑指南(48):Java Stream 判断List元素的属性是否包含指定的值

需求 Java Stream 判断List元素的属性是否包含指定的值该怎么实现? 代码实现 直接上代码 public class OrderInfo {private BigDecimal fee;private String orderStatus; }public class ListTest2 {public static void main(String[] args) {OrderInfo orderInfo n…

Arbess V2.0.7版本发布,支持Docker/主机蓝绿部署任务,支持Gradle构建、Agent运行策略

Arbess 是一款国产开源免费的 CI/CD 工具,产品开源免费,简洁易用。本周Arbess V2.0.7版本发布,新增Docker/主机蓝绿部署策略,Gradle构建任务,新增Agent执行策略。 1、版本更新日志 新增 ➢ 支持Docker蓝绿部署、主机…

万物皆可PID:深入理解控制算法在OpenBMC风扇调速中的应用

引言:智能散热,不仅仅是“开”和“关” 想象一下服务器中的风扇管理。最简单的策略是“bang-bang”控制(双位控制):温度超过阈值,风扇全速运转;温度低于阈值,风扇低速或停止。这种策…

CH347应用 USB转I2C功能之:开源项目i2c-tools工具的使用(2)

目录前言开源地址使用说明i2cdetecti2cdumpi2cset前言 上一篇博客中介绍了CH347配合i2c-tools在Linux下的使用,但我们能不能在Windows中也是用i2c-tools进行I2C设备的调试呢。这里我将i2cdetect、i2cdump、i2cset三个常用的工具移植至Windows平台,并进行…

代码随想录算法训练营第50天 | 图论理论基础、深搜理论基础、98. 所有可达路径、广搜理论基础

图论理论基础 题目链接/文章讲解:https://www.programmercarl.com/kamacoder/%E5%9B%BE%E8%AE%BA%E7%90%86%E8%AE%BA%E5%9F%BA%E7%A1%80.html 了解图的基本概念,连通性,图的构造,图的遍历方式 深搜理论基础 题目链接/文章讲解&…

华为HCIE-云计算培训课程有哪些?

华为HCIE云计算认证是华为公司推出的高级别认证,对于想要在云计算领域发展,提高专业技能和竞争力的人来说具备极高的价值。接下里就来聊聊华为HCIE云计算的培训课程都有哪些?如何高效备考呢?一,HCIE云计算培训课程1、理…

DCS控制回路优化:基于WebSocket的实时参数远程调校方法论

说起来,我前段时间刚啃完一个化工厂DCS控制回路优化的硬骨头,用WebSocket搞成了实时参数远程调校,现在回想起来,满是能跟大家唠的实操经验,说不定你们以后碰到类似情况,能少走些冤枉路。先跟大家交代下背景…

《JVM如何排查OOM》

目录 一、什么是OOM? 二、OOM排查的整体思路 三、OOM排查工具大全 四、实战:不同OOM场景的排查方法 场景1:Java heap space 场景2:Metaspace 场景3:GC overhead limit exceeded 五、高级排查技巧 1. 使用Arth…

ubuntu22.04 安装Docker

一、更新系统包索引sudo apt update && sudo apt upgrade -y二、安装必要依赖安装 curl、gnupg等工具,用于添加 Docker 官方 GPG 密钥和仓库:sudo apt install -y ca-certificates curl gnupg三、添加 Docker 官方 GPG 密钥sudo install -m 0755…

高低压隔离器的技术演进与行业赋能

电力电子系统的安全架构与效率升级,始终依赖高低压电路间的可靠隔离。高低压隔离器作为能量传输与信号控制的核心媒介,通过持续迭代的绝缘技术与结构创新,为新能源装备、工业驱动系统提供底层安全屏障。其阻断电位差传导、抑制电磁干扰的能力…