当视觉(Vision)、语言(Language)和行动(Action)三大能力在一个模型中融合,自动驾驶的未来将走向何方?
近日,来自麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊的研究团队联合发布了全球首篇针对自动驾驶领域的视觉-语言-行动(Vision-Language-Action, VLA)模型的全面综述。这篇题为
《A Survey on Vision-Language-Action Models for Autonomous Driving》
的论文,系统性地梳理了VLA在自动驾驶(VLA4AD)领域的前沿进展,深入剖析了其架构演进、核心技术与未来挑战。论文GitHub仓库已同步上线,收录了超过20个代表性模型和相关数据集。
paper:https://arxiv.org/abs/2506.24044
GitHub: https://github.com/JohnsonJiang1996/Awesome-VLA4AD