1. ELM 的创新点与核心思路
ELM 的核心在于 “具身理解”(Embodied Understanding),即通过常识与环境交互并进行推理,这一理念适用于自动驾驶车辆、机器人和无人机等多种应用场景。具身智能体(Embodied Agent)需具备四大核心能力:首先,它能够描述周围环境,对交通物体的属性、存在状态和运动情况进行准确刻画;其次,不仅能评估大致位置,还能在三维空间中精确定位特定物体,实现高精度的空间定位;再者,需要检索已发生的特定事件,具备强大的记忆能力;最后,能够根据给定的历史信息预测未来,为决策提供依据。
现有方法存在明显局限性:在空间理解方面,现有的视觉语言模型(VLMs)仅限于二维领域,缺乏对三维空间的理解能力,无法准确把握驾驶场景的立体结构;在时间理解方面,只能在短时间内实现信息检索,缺乏长时域外推能力,难以应对复杂的时间序列信息;此外,定位、记忆和预测能力的缺失严重限制了 VLMs 对驾驶场景的具身理解。
针对这些问题,ELM 提出了三大创新点:在空间维度上,通过空间感知预训练(