小鹏汽车 vla 算法最新进展和模型结构细节

小鹏汽车在 VLA(视觉 - 语言 - 动作)算法领域的最新进展和模型结构细节,体现了其在端到端智驾系统车端大模型部署上的技术突破。以下是基于 2025 年 9 月最新公开信息的深度解析:

一、最新进展:全场景 VLA 系统量产落地与跨代升级


  1. 首次 OTA 全量推送与功能强化
    2025 年 9 月 9 日,小鹏 G7 Ultra 车型完成全球首个全场景 VLA 系统的 OTA 全量推送,核心升级包括:

    • 专家级风险预判:在无保护转向、盲区路口等场景中,通过时空推理提前规划防御性策略。例如,系统可预判对向车辆可能的抢道行为,提前调整车速并预留安全距离,实现 “无感避险”。
    • 行业首创人机共驾模式:当 NGP(导航辅助驾驶)激活且时速低于 130km/h 时,驾驶员可通过轻转方向盘或踩加速踏板介入驾驶,系统在 0.5 秒内无缝恢复 NGP,支持低速跟车、匝道汇入等灵活协作。
    • 车位到车位记忆泊车:支持任意车位实时记录与停车场 3D 建模,车辆可自动泊入斜列式车位、断头路车位等非标准车位,识别精度达 ±15cm,支持斜角≤45° 的复杂场景。
    • 主动安全强化:AES 自动紧急转向避让功能在紧急碰撞危险且制动空间不足时,可自动发起转向避险并减速,对异形障碍物(如倒地的外卖箱)的识别准确率较传统方案提升 30%。

  2. 年底跨代更新计划与算力支撑
    小鹏计划于 2025 年底对 Ultra 版车型进行 VLA 跨代更新,目标是实现十倍于现役智驾系统的体验跃升,核心依托:

    • 云端 720 亿参数基座模型:通过万卡规模计算集群训练,数据规模从 2000 万 Clips 视频(每条 30 秒)扩展至 2 亿 Clips,支持复杂场景的长时序推理。
    • 自研图灵 AI 芯片的算力霸权:3 颗图灵芯片提供 2250TOPS 有效算力(等效 9 颗英伟达 Orin-X),支持车端大模型实时运行。例如,在双臂协作任务中,动作生成延迟低至 20ms,推理速度达 6Hz,同时保持 97.1% 的任务成功率。
    • Token 压缩技术突破:与北大联合研发的 FastDriveVLA 框架,通过基于图像复原的 token 剪枝技术,将视觉 token 数量从 3249 条压缩至 812 条,FLOPs 降低 7.5 倍,同时保持碰撞率等关键指标优于未剪枝基线。


二、模型结构细节:云端蒸馏与车端异构计算


1. 混合架构设计

小鹏 VLA 采用云端基座模型 + 车端蒸馏模型的混合架构,实现 “超大规模训练” 与 “实时推理” 的平衡:

  • 云端基座模型
    • 参数规模:720 亿参数,基于大语言模型(LLM)骨干网络,整合视觉理解、链式推理(CoT)和动作生成能力。
    • 训练策略:通过对比学习和掩码预测预训练,使用 2000 万 Clips 视频数据(含多摄像头、激光雷达、毫米波雷达数据),并通过强化学习(RL)优化复杂场景决策。

  • 车端蒸馏模型
    • 参数规模:约 30 亿参数(云端的 1/24),通过知识蒸馏保留云端模型 90% 以上的推理能力,同时支持 INT8 量化和剪枝,适配图灵芯片的实时推理需求。
    • 轻量化技术:采用 LoRA(低秩适应)和动态路由机制,在消费级 GPU 上实现快速微调,例如在多目标清理任务中,微调后的模型成功率比扩散模型提升 20.4%。


2. 核心模块技术细节

  • 视觉编码器

    • 多传感器融合:采用 ViT(视觉 Transformer)与 CNN 混合架构,处理 12 路摄像头、激光雷达和毫米波雷达数据,通过 BEV(鸟瞰图)特征融合生成稠密的 3D 环境感知图。
    • 动态 token 压缩:结合 FastDriveVLA 框架的 ReconPruner 剪枝器,通过 MAE(掩码自动编码器)风格的像素重建任务,优先保留前景区域 token(如车辆、行人、交通标志),抑制背景冗余信息。

  • 语言模型

    • 指令解析与推理:基于自研 LLM(可能为 Llama 2 或类似架构),解析自然语言指令(如 “避开施工路段”)并生成语义控制逻辑,支持多轮对话与上下文理解。
    • 跨模态对齐:通过交叉注意力机制,将视觉特征(如 “红色信号灯”)与语言语义(如 “停车”)动态关联,实现指令与场景的精准匹配。

  • 动作生成器

    • 端到端控制:采用扩散模型或序列到序列学习,直接生成连续动作序列(如方向盘角度、油门 / 刹车力度),支持机械臂协同与实时避障。例如,在家庭服务场景中,模型可通过 “将杯子从桌子移到架子” 的指令,自动规划路径并调整抓取力度。
    • 物理引擎验证:生成的动作序列需通过 Simulink 等物理引擎验证轨迹可行性,确保在动态环境中的安全性。


3. 多模态融合机制

  • 时空推理模块
    结合 Transformer 解码器与 LSTM,对多帧视觉数据进行时序建模,预测未来 5 秒内的场景变化(如车辆变道、行人横穿),支持复杂路口的博弈决策。
  • 对抗式训练策略
    在训练中引入对抗式前景 - 背景重建,强制模型区分前景(如障碍物)与背景(如建筑物),避免 token 剪枝时误删关键信息。例如,ReconPruner 通过同时重建前景和背景区域,提升 token 筛选的准确性。

4. 硬件协同优化

  • 图灵芯片的 DSA 架构
    采用 40 核处理器、2xNPU 神经网络处理单元和专用内存控制器,算力利用率达 100%,远超通用芯片的 30-40%。例如,在多摄像头输入场景中,芯片可并行处理视觉特征提取与语言推理,降低延迟。
  • 分布式计算框架
    两颗图灵芯片负责智驾 VLA 系统,一颗搭配高通 8295P 处理座舱 VLM(视觉 - 语言模型),实现 “大脑 + 小脑” 的协同工作。例如,AR-HUD 的坐姿自适应调节与路怒情绪互动功能,由座舱芯片独立处理,不影响智驾系统的实时性。

三、技术挑战与行业竞争


  1. 核心挑战

    • 数据闭环效率:尽管小鹏构建了 29.3 亿公里实车日志与生成式仿真数据的闭环,但真实场景长尾数据(如极端天气、罕见交通事件)的采集仍需依赖用户反馈,可能影响模型迭代速度。
    • 实时性与泛化性平衡:复杂模型(如 720 亿参数云端模型)难以在边缘设备实现毫秒级响应,而轻量化模型对未训练过的环境适应性不足。例如,Token 压缩技术在提升速度的同时,可能导致部分边缘场景的语义丢失。
    • 可解释性与安全性:黑箱模型难以定位错误根源(如视觉误判或指令误解),需结合符号化规则(如碰撞检测模块)提升可靠性。例如,小鹏的混合架构中,端到端模型生成的动作仍需通过符号化安全校验。

  2. 行业竞争态势
    随着华为乾昆 ADS 4.0、理想 VLM 司机大模型、蔚来 NWM 世界模型等竞品的下半年推送,小鹏的 “十倍体验” 宣言面临挑战。其技术负责人强调,图灵芯片的超高算力与云端大模型的持续迭代是支撑 VLA 性能跃迁的关键,而 FastDriveVLA 等创新技术则是差异化竞争的核心。


四、总结


小鹏汽车的 VLA 算法已从实验室走向规模化应用,其核心优势在于车端大模型的实时部署能力云端基座模型的持续进化,以及多模态交互的场景化创新。通过自研芯片、Token 压缩技术和跨代更新计划,小鹏正推动具身智能从概念验证迈向工业级落地。然而,其技术路线仍需面对数据隐私、长尾场景泛化等挑战,而行业对 “十倍体验” 的实际效果验证,将成为 2025 年下半年的关注焦点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/96439.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/96439.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

斐波那契数列推广

目录 问题: 法一: 法二: 例题: 问题: 已知斐波那契数列的第一个和最后一个数字,如何求整个数列(即第二个数字) 法一: 主要是将数列拆分成两个数列的思想 法二: 暴力…

基于STM32设计的智慧路灯(华为云IOT)_281

文章目录 一、前言 1.1 项目介绍 【1】项目开发背景 【2】设计实现的功能 【3】项目硬件模块组成 【4】设计意义 【5】国内外研究现状 【6】摘要 1.2 设计思路 1.3 系统功能总结 1.4 开发工具的选择 【1】设备端开发 【2】上位机开发 1.5 参考文献 1.6 系统框架图 1.7 系统原理…

实验十 合理定义分布列实现性能优化-分布式表关联

实验介绍本实验通过分析普通查询过程中存在的性能瓶颈点,通过执行计划的分析找到可能的性能优化点并加以实施,最终达到优化的效果,重点关注分布式关联相关查询语句的优化。实验目的了解通过合理定义分布列实现分布式关联的性能优化。实验步骤…

C#,RabbitMQ从入门到精通,.NET8.0(路由/分布式/主题/消费重复问题 /延迟队列和死信队列/消息持久化 )/RabbitMQ集群模式

为什么使用消息队列 消息队列(MQ)在分布式系统中用于解耦生产者和消费者,提高系统的异步处理能力、削峰填谷、增强可扩展性和可靠性。通过消息队列,任务可以异步执行,避免系统因瞬时高并发而崩溃。 消息队列场景 异…

OpenHarmony之SELinux安全组件底层原理设计架构精讲

1. 组件介绍 1.1 核心功能 **SELinux(安全增强式Linux)**是Linux历史上杰出的安全组件,包含一组内核修改和用户空间工具,并提供了基于安全策略的强制访问控制机制(Mandatory Access Control,MAC)。本部件负责对文件、属性、服务等系统资源提供强制访问控制保护,提供n…

IIS 部署 asp.net core 项目时,出现500.19、500.31问题的解决方案

目录 (一)500.19 问题 1. 问题说明 2. 原因 3. 解决 (二)500.31 问题 1. 问题说明 2. 原因 打开事件检视器的3种方式: 3. 解决 (一)500.19 问题 1. 问题说明 2. 原因 Web项目发布时&am…

中大型水闸安全监测的重要性及实施方法

水闸作为水利工程体系中的关键性构筑物,其结构安全性和运行可靠性直接影响到整个水利系统的稳定运行,更与下游地区人民群众的生命财产安全息息相关。作为水利枢纽工程的重要控制节点,水闸承担着防洪排涝、灌溉供水、航运发电等多重功能&#…

【芯片设计-信号完整性 SI 学习 1.1.1 -- Unit Interval,比特周期】

文章目录1. Unit Interval (UI) / 比特周期 的定义2. 举例说明3. 在眼图 (Eye Diagram) 中的体现4. 示意图(a) 单比特周期(b) 不同速率下的 UI(c) 眼图中的 UI5. 总结1. Unit Interval (UI) / 比特周期 的定义 在高速信号传输与 信号完整性 (SI) 测试中,Unit Inter…

Go语言开发工具全解析

Go 语言的开发工具生态对于提高开发效率、保证代码质量和团队协作至关重要。一套完善的工具链可以帮助开发者:1. 加速编码过程代码模板快速生成常见模式例如使用代码片段(Snippet)快速生成HTTP服务框架自动生成测试用例模板实时语法检查减少错误即时显示类型不匹配错…

[邮件服务器core] 安全通信(SSL/TLS) | OpenSSL库管理 | 服务端安全SECURITY.md

第5章:安全通信(SSL/TLS) 欢迎回来 在第4章:服务运行中,我们学习了如何启动Dovecot邮件服务器并使其运行。 现在,我们的服务器已经启动并准备好处理电子邮件,但有一个关键问题:我…

Lodash方法总结

目录 1. _.defaults()为对象填充默认值 基本语法 功能说明 示例代码 注意事项 与其他类似方法的区别 2. _.pickBy()删除对象中值为空串或 null 的属性 实现方法 代码说明 扩展:深层过滤 3._.omitBy()移除满足条件的属性 基本语法 核心功能 示例代码 1…

C#---Expression(表达式)

前言:Expression 是C# 高级编程,表达式的应用场景有 ORM框架:Entity Framework,Dapper等,规则引擎:动态业务规则评估, 依赖注入:高级DI容器实现,测试框架:模拟…

Lodash-es 完整开发指南:ES模块化JavaScript工具库实战教程

简介 Lodash-es 是 Lodash 库的 ES 模块版本,提供了大量实用的 JavaScript 工具函数。它支持按需导入,可以显著减少打包体积,是现代 JavaScript 项目中的首选工具库。 主要特性 ES 模块支持: 完全支持 ES6 模块语法按需导入: 只导入需要的…

26. AI-Agent-Dify

文章目录前言一、Dify入门为什么使用 Dify?Dify 能做什么?二、Dify私有化部署Docker Compose 部署前提条件克隆 Dify 代码启动 Dify更新 Dify访问 Dify自定义配置三、Dify构建企业级Agent应用定义如何使用智能助手添加助手需要的工具配置 Agent配置对话开…

云原生:微服务与Serverless指南

Copilot时代的开发者效能提升 代码生成与补全:减少重复性编码工作,加快开发速度错误检测与修复:实时提示潜在问题,降低调试时间知识获取与学习:帮助开发者快速掌握新语言或框架协作效率:通过AI辅助减少团队…

SpringBoot + Apache Tika:一站式解决文件数据提取难题

在日常开发中,你是否也遇到过这样的窘境:领导甩来需求“把用户上传的 Word、Excel、PDF 里的关键信息扒出来存库”,你却要对着不同格式逐个攻坚——解析 Word 用 POI 还要处理 .doc/.docx 兼容,解析 Excel 要啃合并单元格、公式计…

车牌模拟生成器:Python3.8+Opencv代码实现与商业应用前景(C#、python 开发包SDK)

车牌模拟生成器:Python代码实现与商业应用前景引言在智慧城市建设和汽车行业数字化浪潮中,车牌作为车辆的唯一标识,其相关技术应用正变得越来越重要。今天我们将介绍一个基于Python的车牌模拟生成器,探讨其技术实现、功能特点以及…

小程序非主页面的数据动作关联主页面的数据刷新操作

如果在主页面跳转到其他页面。比如说我的收藏页面,然后有取消收藏的动作,当返回到主页面的时候,如果有关联数据显示在主页面,刷新页面对应的状态。 下面的代码是实现://卡片收藏/取消if (newCollectd) {this.setData({…

后端(fastAPI)学习笔记(CLASS 1):扩展基础

一、python的类型声明1、类型声明的背景和作用python 3.6 版本引入了“类型提示”1、类型提示是一种新的语法,用来声明变量的类型2、提高编译器和工具的支持能力为什么要学习类型提示1、了解类型提示不仅仅对使用FastAPI有帮助,也能提高代码的可读性度和…

2023年系统分析师上半年论文试题分析

试题一 论信息系统的可行性分析信息系统可行性分析的目的是确认在当前条件下企业是否有必要建设新系统,以及建设新系统的工作是否具备必要的条件。如何进行可行性分析是系统分析师所必须面临的问题。请围绕信息系统可行性分析论题,依次从以下三个方面进行…