【无标题】世界模型

在这里插入图片描述

为什么大语言模型，没有真正推动经济大幅增长，但世界模型有可能

5月份谷歌IO大会，DeepMind老板（谷歌AI业务负责人，2024Nobel化学奖得主，黛密斯哈萨比斯）提到，谷歌接下来目标是做世界模型。

一、Meta发布了最新世界模型JEPA2

V-JEPA 2 world model and new benchmarks for physical reasoning

Meta Video Joint Embedding Predictive Architecture（V-JEPA 2）第一个基于视频训练的世界模型，在物理世界的视觉理解和预测方面实现了最先进的性能。模型还可以用于零样本机器人的规划，以便在新环境中与不熟悉的物体交互。V-JEPA 2代表了我们实现先进机器智能（AMI）目标的下一步，旨在构建能够在物理世界中运行的有用AI代理。

meta的首席AI科学家（2018年图灵奖得主，纽约大学教授）杨丽坤对这个模型做了一个介绍：大家都觉得语言对智能非常重要，但其实语言不是智能的全部，比如先给你看一个立方体的透视图，然后告诉你会把这个立方体旋转90度，你在脑子里是可以预判出这个透视图会变成什么样的，这是智能，但这个语言没有任何关系，在成长的过程中人类可以逐渐形成对物理世界的常识，这种常识可以帮助人类预判下一步，比如说一旦手机从手中滑落，所有人都会知道这个手机会掉到地上，而不可能会飞到天上，这个对我们称为常识，所有的这些常识构成了我们对物理世界的认知，所有的这种对物理世界的认知的总和就是所谓的世界模型。

【杨教授视频】

vjepa2杨教授介绍

世界模型能干什么 ？AI科学家们希望让机器也能理解这些常识，也就是说要为机器建立世界模型。第一，世界模型需要能看懂这个世界，比如某个跳水视频，建立了世界模型的AI会告诉你这个动作是向前翻1.5中五转体。第二，世界模型需要能做出合理的预判，比如说给AI一些上下文介绍一下背景信息，再看一个开始做饭的视频，AI就能预判每一步的行为。传统机器人冲咖啡，它的动作呢是预先编排好的，或者起码绝大部分动作是编好的，机器人只需要按部就班的执行动作就可以了，不需要有脑子，但这个任务不一样，对于这个任务没有事先的编排，机器人需要理解这个目标，然后根据这个目标规划各种执行方案，然后根据脑子中的世界模型判断哪些方案是可行的，哪个方案是最优的，然后再执行，这种思考方式跟人类是一模一样的，那为什么要让机器人具备这种思考能力呢？因为你不可能把机器人可能要做的所有动作都用编程事先编好，面对全新的情况也能解决好，这才叫机器人。如果只是重复类似的动作，这些动作做的再好也只是机器。事实上人类就具备解决新问题的能力。比如说我们知道怎么把水从瓶子里倒到茶杯里，如果把茶杯换成任何形状的杯子，我们不用学也会知道怎么倒。开完这几个例子你应该对世界模型能用来干嘛？有了更深刻的理解

理解：世界模型应该能够理解对世界的观察，包括识别视频中的物体、动作和运动。
预测：世界模型应该能够预测世界将如何演变，以及如果代理采取行动，世界将如何变化。
规划：基于预测能力，世界模型应该有助于规划实现给定目标的行动序列。

为什么世界模型值得关注？甚至我觉得在不久的将来，所有科技公司都会开始卷世界模型的，因为自动驾驶和机器人会带来巨大的商业价值，而世界模型是自动驾驶和机器人的必要条件，没有世界模型，自动驾驶和机器人就不可能达到优秀水平。先说自动驾驶，现在的自动驾驶大部分都及格了，也就是基本不会撞车了，但体验上的差别还挺大的，有的自动驾驶，比如特斯拉的SD就更像老司机，有的自动驾驶给人的感觉就比较楞，为什么不同的自动驾驶系统给人的感觉会有这么大的差别？那其实就是基于物理世界的推理能力有差别，为什么这么说呢？我描述一个场景你就明白了，比如在开车的时候，前面有个骑电动车的人离得不算很近，骑车的人呢时不时会往左看，而且在不远的地方有个能左拐的路口，对于有经验的老司机。看到这种情况一般都会开始警惕稍微减减速，因为司机有理由相信这个骑电动车的人很可能想往左拐，这就是一种基于物理世界常识的推理，这种推理能力就会让老司机对各种可能发生的情况有所预判，从而把车开得更加平稳，但如果是新手不会预判，那就只会等到这个电动车突然左拐自己快撞上的时候急刹车，同样的道理，有物理世界推理能力的自动驾驶系统就会开的比较平稳，但缺乏物理世界推理能力的自动驾驶系统就会开的比较愣，再说机器人之前有很多机器人跳舞和跑跳的视频。你看上去很酷炫，但其实这些动作大部分都是用编程预先编好的，机器人只是在重复这些动作，这样的机器人顶多算是个长得像人的机器，因为这些动作不太需要智能，只有当一个机器人在面对大部分新的情况都可以通过推理顺利解决掉的时候，这个机器人才能叫真正的有智能。

vjepa2介绍

1.1 网络框架

V-JEPA 2使用联合嵌入预测架构（JEPA）构建，有两个主要组件：

编码器，接收原始视频并输出embedding，这些embedding捕获了关于观察世界状态的有用语义信息。
预测器，接收视频embedding和关于预测内容的附加上下文，并输出预测的embedding。

在这里插入图片描述

使用视频的自监督学习来训练V-JEPA 2，这使我们能够在视频上训练，而不需要额外的人工注释。V-JEPA 2训练包括两个阶段：无动作预训练，然后是额外的动作条件训练。

在第一阶段——预训练 ——使用了来自多渠道超过100万小时的视频和100万张图像。这些丰富的视觉数据帮助模型深入理解世界的运作方式，包括人与物体的互动模式、物体在物理世界中的运动规律以及物体间的相互作用。研究发现，模型在预训练阶段结束后就已展现出与理解和预测相关的关键能力。例如，通过在冻结编码器特征上训练轻量级的注意力读出机制（attentive read-out），V-JEPA 2在依赖运动理解的Something-Something v2行为识别任务中表现卓越；同样地，通过在冻结编码器和预测器特征上训练注意力读出机制，该模型在以自我为中心视频中预测未来1秒将执行动作（由名词和动词构成）的Epic-Kitchens-100行为预期任务上创造了最新技术标杆。最终，将V-JEPA 2与语言模型对齐后，在Perception Test和TempCompass等视频问答基准测试中实现了最先进的性能表现。

在无动作预训练阶段结束后，该模型能够预测世界可能如何演变——但这些预测并未直接考虑智能体将采取的具体行动。在 训练的第二阶段，通过使用机器人数据（包含视觉观测视频和机器人执行的控制动作）来增强模型的规划实用性。我们将这些动作信息提供给预测器，从而将该数据整合到JEPA训练流程中。经过这些额外数据的训练后，预测器学会了在预测时考虑具体动作，进而可用于控制任务。第二阶段所需的机器人数据量并不大——我们的技术报告显示，仅用62小时的机器人数据训练，就能获得可用于规划控制的模型。

我们展示了如何利用V-JEPA 2模型，在新环境中进行零样本机器人规划，并处理训练阶段未曾接触的物体。与其他机器人基础模型不同——这类模型通常要求部分训练数据必须来自模型部署的具体机器人实例和环境——我们直接在开源DROID数据集上训练该模型，随后将其部署于实验室的实体机器人。实验证明，V-JEPA 2预测器能够胜任基础性任务，例如移动至目标位置、抓取物体以及将其放置到新位置。

针对短期任务（如抓取或放置物体），采用图像形式设定目标。通过V-JEPA 2编码器获取当前状态与目标状态的嵌入表示，机器人从观测到的当前状态出发，利用预测器模拟执行候选动作集合的后续状态，并根据动作使系统接近目标状态的程度进行评分。每个时间步中，机器人通过模型预测控制重新规划并执行评分最高的下一步动作。

对于长期任务（如抓取物体并准确放置至目标位置），我们设定一系列视觉子目标供机器人依次完成，这种方式类似于人类视觉模仿学习的行为模式。借助这些视觉子目标，V-JEPA 2在全新未见环境中执行抓放新物体任务时，成功率可达65%-80%。

vjepa机械臂

1.2 评价指标

有智能的机器人才能创造足够大的经济价值，而具备这种物理世界的推理能力，机器人的脑子里就必须有一个世界模型。 如何评判时间的模型性能呢？大语言模型的能力一般是从数学能力，编程能力，聊天能力等各方面去打分，但这些评判标准显然不适合世界模型，对于世界模型应该用哪些指标来评判呢？著名的AI开源社区HuggingFace采用了三个全新的指标，用于追踪前沿模型在Meta FAIR发布的3个物理推理基准数据集上的进展：除了通过公开提交追踪社区进展外，我们还提供了每个基准的人类评分，以了解领先模型与人类在关键物理和视频推理任务上的表现差距。

1.MVPBench : 一个用于时空和直觉物理视频理解的视频问答(VQA)基准。视频来源于多样化数据集，并通过自动配对设计，使得每对视频仅在最小程度上存在差异，但对同一问题有相反的正确答案。这种设计确保模型需要超越依赖表面视觉或文本偏差才能在基准测试中表现良好。

Minimal Video Pairs（MVPBench） 通过多项选择题来衡量视频语言模型的物理理解能力。与文献中的其他视频问答基准不同，MVPBench旨在减轻视频语言模型中观察到的常见快捷解决方案，例如依赖于肤浅的视觉或文本线索和偏见。MVPBench中的每个示例都有一个最小的变化对：一个视觉上相似的视频，带有相同的问题，但答案相反。为了获得一个例子的信用，模型还必须正确地得到其最小变化对。

IntPhys 2 : 一个旨在评估深度学习模型直觉物理理解能力的视频基准。IntPhys 2聚焦四个核心原则：Permanence（持久性）、Immutability（不变性）、Spatio-Temporal Continuity（时空连续性）和Solidity（固体性），并提供了一套基于"违反预期"框架的综合测试，挑战模型在受控且多样化的虚拟环境中区分可能和不可能事件的能力。

在这里插入图片描述
IntPhys 2专门用于衡量模型区分物理上合理和不合理场景的能力，在早期IntPhys基准的基础上进行构建和扩展。我们设计的IntPhys 2中类似于发展认知科学家在年轻人通过违反期望范式获得直觉物理时的评估方式。我们使用一个生成成对视频的游戏引擎来实现这一点，其中两个视频在某个点上是相同的，然后在其中一个视频中发生物理破坏事件。然后，模型必须确定哪个视频具有物理破坏事件。虽然人类在各种场景和条件下都能在这项任务上达到近乎完美的准确性，但我们发现当前的视频模型处于或接近偶然。

CausaNQA : 一个由问答对组成的视频问答(VQA)基准，用于探究模型对物理世界因果关系的理解。问题设计基于真实世界场景，同时聚焦模型通过五种问题类型预测不同行动和事件可能结果的能力——counterfactual（反事实）、hypothetical（假设）、anticipation（预期）、planning（规划）和descriptive（描述性）。

在这里插入图片描述

因果VQA评估视频语言模型回答与物理因果关系相关问题的能力。该基准旨在关注物理世界视频中的因果理解，包括反事实（如果…会发生什么）、预期（接下来可能发生什么）和规划（为了实现目标下一步应采取什么行动）等问题。研究发现，尽管大型多模态模型在回答视频中‘发生了什么’的问题上越来越有优势，但在回答‘可能发生了什么’和‘接下来可能发生什么’的问题上仍显不足，这表明在预测物理世界如何根据行动和事件空间演变方面，这些模型与人类的表现存在显著差距。

在这里插入图片描述