Meta发布V-JEPA 2世界模型及物理推理新基准,推动AI在物理世界中的认知与规划能力

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Meta正式发布了其最新一代世界模型——V-JEPA 2(Video Joint Embedding Predictive Architecture 2)。这是一个在物理世界视觉理解和预测方面实现最先进性能的大型模型,具备零样本环境下的机器人规划能力,可以让AI代理与陌生物体和未知环境交互,完成复杂任务。此次发布不仅标志着Meta向“高级机器智能(AMI)”目标迈出的关键一步,也带来了三个全新物理推理评测基准,用于全面评估视频模型的物理直觉与因果理解能力。


什么是“世界模型”?

人类拥有与生俱来的物理直觉——比如把网球抛向空中,自然会期待它因重力落下,而不会莫名其妙漂浮、变向或变成苹果。即使在学会完整说话之前,儿童已开始通过观察积累这种“世界如何运行”的基本认知。

这种对世界状态和行为结果的预测能力,是人类在面对新环境、新任务时作出决策的基础。例如在拥挤的人群中行走、在冰球场上滑向未来的球点、或烹饪过程中控制火候,背后都依赖内心的“世界模型”。

对于人工智能来说,构建这样的世界模型意味着系统能够:

  • 理解观察到的世界状态(识别视频中的物体、动作和运动模式);
  • 预测世界状态的演变,及在特定行动下会如何变化;
  • 规划一系列行动以达成某一目标。


V-JEPA 2:从视频中学习世界如何运行

V-JEPA 2是一个拥有12亿参数的模型,建立在Meta自研的**Joint Embedding Predictive Architecture(JEPA)**架构上。它由两个关键组件构成:

  1. 编码器:接收原始视频,提取语义嵌入特征,理解当前世界状态;
  2. 预测器:根据嵌入特征与上下文信息,输出对未来状态的预测嵌入。

V-JEPA 2通过自监督学习训练而成,无需人工标注,主要分两个阶段:

阶段一:无动作预训练

模型在超过100万小时视频和100万张图像上进行训练,涵盖人类行为、物体运动及物体交互等视觉知识。仅在此阶段,V-JEPA 2就已展现强大的理解与预测能力:

  • 在动作识别任务Something-Something v2上实现新纪录;
  • Epic-Kitchens-100动作预判任务上超越前沿模型;
  • 与语言模型对齐后,在视频问答任务如Perception TestTempCompass上刷新SOTA表现。

阶段二:引入机器人控制数据

通过接入仅62小时的机器人控制数据,模型进一步学习将具体行动映射至未来状态预测。这使得模型不仅能预测“世界可能如何变化”,还具备了动作条件下的控制能力,实现规划执行。


零样本机器人控制能力

V-JEPA 2可直接在未见过的新环境、新物体中进行零样本规划与机器人控制。不同于其他机器人基础模型需在部署环境中采集训练数据,V-JEPA 2仅使用公开DROID数据集训练,即可部署至实际机器人系统,实现如“抓取并放置物体”这类基础任务。

对于短期任务(如抓取物体),用户提供目标图像,模型通过编码当前状态和目标状态进行比对并规划行为。在每一步中,机器人都会重新评估行动方案,并通过模型预测控制(Model Predictive Control)执行最佳动作。

对于长期任务(如将物体放置至指定位置),V-JEPA 2支持多阶段目标规划(Visual Subgoal Planning),仿似人类模仿学习。这使得机器人在未见物体/环境下的任务完成率达到65%至80%


三项全新开放评测基准:衡量视频模型的“物理世界智慧”

Meta还同步发布三项评测数据集,用于测试当前视频模型是否真正具备“物理直觉”和“因果推理”能力。这些基准覆盖人类在生活中本能掌握的基本物理规律与推理方式。

1. IntPhys 2

衡量模型判断物理可能性与不可能性的能力。通过成对视频对比:两个视频前半段完全一致,后半段其中一个发生违反物理规律的事件(如穿墙、漂浮),模型需判断哪一个不合常理。人类准确率可达95%,但当前模型仍接近随机水平。

2. MVPBench(Minimal Video Pairs)

使用微差视频对测试模型在视觉-语言问答中的物理理解。每组题目含两条几乎相同视频,但正确答案相反。只有同时答对主视频与“微差版本”问题,才算通过,避免模型依赖表面特征作弊。

3. CausalVQA

考查模型是否能回答物理因果关系相关问题。包括:

  • “如果发生某事,会如何?”
  • “接下来可能会发生什么?”
  • “为达成目标,下一个动作应是什么?”

这类问题比“视频中发生了什么”更具挑战性,测试模型是否真正理解动态因果链条。目前模型在这些问题上与人类表现仍有显著差距。


未来展望:通向高级机器智能的下一步

V-JEPA 2已具备单一时间尺度上的理解与预测能力。但现实任务通常需跨越多个时间尺度(如烘焙蛋糕、组装家具)。下一阶段,Meta将探索多层次、分层式JEPA模型,让AI能处理长期目标与中短期子任务之间的协调。

此外,Meta还计划发展多模态世界模型,引入视觉、音频、触觉等多感知维度,以进一步贴近人类认知方式。


资源获取与社区开放:

Meta已开源如下内容:

  • 模型代码与检查点(Checkpoints):可用于研究与商用部署
  • 三项评测数据集(IntPhys 2、MVPBench、CausalVQA)
  • 模型排行榜:可在 Hugging Face 上查看模型表现
  • 技术论文与实验报告

欢迎研究社区下载使用,共同推动世界模型的发展:

  • GitHub:V-JEPA 2 (https://github.com/facebookresearch/vjepa2)、IntPhys 2 (https://github.com/facebookresearch/IntPhys2)、MVPBench (https://github.com/facebookresearch/minimal_video_pairs)、CausalVQA (https://github.com/facebookresearch/CausalVQA)


结语

V-JEPA 2不仅是一个强大的视频预测模型,更是Meta在构建“能理解、能预测、能规划”的智能体道路上的关键里程碑。随着世界模型能力的增强,AI将更接近人类的认知机制,在物理世界中实现安全、灵活、可靠的智能交互。这不仅是技术上的突破,更可能彻底重塑机器人、自动驾驶、家庭助手等AI实际应用的能力边界。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/83462.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

触觉智能RK3576核心板工业应用之软硬件全国产化,成功适配开源鸿蒙OpenHarmony5.0

在全球科技竞争加剧和供应链安全日益重要的背景下,实现关键软硬件的全国产化替代已成为国家战略和产业共识。在这一背景下,触觉智能推出RK3576核心板,率先适配开源鸿蒙OpenHarmony5.0操作系统,真正实现了从芯片到操作系统的全栈国产化方案&am…

前端基础知识ES6系列 - 01(var、let、const之间的区别)

一、var 在ES5中,顶层对象的属性和全局变量是等价的,用var声明的变量既是全局变量,也是顶层变量 注意:顶层对象,在浏览器环境指的是window对象,在 Node 指的是global对象 var a 10; console.log(window…

Python Docker 镜像构建完整指南:从基础到优化

Python 是一门广泛使用的编程语言,在容器化环境中,构建和使用 Python 镜像是非常常见的任务。本文将提供一个完整的指南,包括选择基础镜像、制作流程、不同场景下的应用、安全性最佳实践以及镜像优化策略。 1. 选择合适的基础镜像 1.1 官方 Python 镜像 Docker Hub 提供了…

【狂飙AGI】第1课:大模型概述

目录 (一)大模型概念解析(二)大模型发展历程(三)大模型发展现状(1)OpenAI(2)微软(3)谷歌(4)Meta (…

vite ts 配置使用@ 允许js

1.vite.config.ts 配置 import { defineConfig } from vite import vue from vitejs/plugin-vue import { fileURLToPath, URL } from node:url import setup_extend from vite-plugin-vue-setup-extend// https://vite.dev/config/ export default defineConfig({plugins: …

使用Ollama+open-webui搭建本地AI模型

本地搭建AI模型 说明:1、下载Ollama2、下载模型3、pip安装open-webui(不推荐)1、Python版本不对应2、下载wheels失败 4、docker安装open-webui 说明: 在windows上搭建本地AI,使用Ollamaopen-webui的方式,可…

第 87 场周赛:比较含退格的字符串、数组中的最长山脉、一手顺子、访问所有节点的最短路径

Q1、[简单] 比较含退格的字符串 1、题目描述 给定 s 和 t 两个字符串,当它们分别被输入到空白的文本编辑器后,如果两者相等,返回 true 。# 代表退格字符。 **注意:**如果对空文本输入退格字符,文本继续为空。 示例 …

linux安装阿里DataX实现数据迁移

目录 下载datax工具包(如果下载慢,请尝试其他国内镜像站或其他网站下载相应资源) 解压工具包到当前目录里 接着进入conf配置目录并创建一个myjob.json(临时测试json),myjob.json内容如下,用于模拟test库tab1表数据同…

C++ 引用介绍

很好!既然你有 C 的基础,那么理解 C 的「引用(reference)」会容易很多。我们来一步步讲清楚这个概念。 🌟 一句话总结: C 引用(reference)就是已存在变量的“别名”,它不…

学习笔记086——@PostConstruct注解和InitializingBean接口的使用

文章目录 1、PostConstruct注解1.1 介绍1.2 用法1.3 场景 2、InitializingBean接口2.1 介绍2.2 用法 1、PostConstruct注解 1.1 介绍 PostConstruct 是 Java EE/Jakarta EE 中的一个注解,用于标记一个方法在依赖注入完成后执行初始化操作。它通常与 Spring 框架一…

考研系列—408真题操作系统篇(2015-2019)

目录 # 2015年 1.死锁处理 (1)预防死锁 (2)避免死锁 (3)死锁检测和解除 2.请求分页系统的页面置换策略、页面置换策略 3.页、页框、页表,基本分页系统 # 2016年 1.异常、中断 2.页置换算法 3.进程的互斥操作 4.SPOOLing技术(从软件方面实现设备共享) 5.一定要牢记…

argocd部署cli工具并添加k8s集群

先决条件: 1.已经有k8s集群,(网上一万种部署方式,这里我使用的是kubekey部署的),也埋了个坑,后面说明. 2.已经部署好argocd,并验证web已经可以访问.参见 k8s部署argocd-CSDN博客 部署客户端工具, 这里我是从web页面上直接下载的对应版本的cli工具. 打开已经部署好的argoc…

打卡day52

简单cnn 借助调参指南进一步提高精度 基础CNN模型代码 import tensorflow as tf from tensorflow.keras import layers, models from tensorflow.keras.datasets import cifar10 from tensorflow.keras.utils import to_categorical# 加载数据 (train_images, train_labels),…

OpenGL ES绘制3D图形以及设置视口

文章目录 关于 glDrawElements基本概念使用场景mode 绘制模式type 索引数据类型indices 索引缓冲区工作原理绘制正方体实例 视口透视投影(Perspective Projection)正交投影(Orthographic Projection)正交投影和透视投影对比 关于 …

【SAS求解多元回归方程】REG多元回归分析-多元一次回归

多元一次回归是一种统计方法,用于分析多个自变量(解释变量)与一个因变量(响应变量)之间的线性关系。 目录 【示例】 基本语法 SAS代码 参数估计 方差分析 回归统计量 y的拟合诊断 y的回归变量值 【示例】 设Y…

卡通幼儿园教育通用可爱PPT模版分享

幼儿园教育通用PPT模版,教育教学PPT模版,卡通教育PPT模版,可爱卡通教学课件PPT模版,小清新动物卡通通用PPT模版,教学说课通用PPT模版,开学季PPT模版,国学颂歌PPT模版,可爱简约风PPT模…

力扣HOT100之技巧:75. 颜色分类

这道题实际上就是让我们不用sort()函数来实现对原数组的排序,这里我直接使用快速排序对原数组进行排序了,也是复习一下基于快慢指针的快速排序写法。面试手撕快排的思路参考这个视频。 用时击败100%,还行。下面直接贴代码。 class Solution …

离线部署openstack 2024.1 keystone

控制节点身份服务 离线下载 apt-get install --download-only keystone python3-openstackclient apache2 libapache2-mod-wsgi-py3mkdir /controller/keystone mv /var/cache/apt/archives/*.deb /controller/keystone/ dpkg -i /controller/keystone/*.deb在一个控制节点操…

帆软 BI 从入门到实战全攻略(一):安装激活与添加数据

一、帆软 BI 产品概述​ 在当今大数据时代,数据分析与可视化成为企业洞察业务、驱动决策的关键利器。帆软软件有限公司作为中国专业的大数据 BI 和分析平台提供商,自 2006 年成立以来,凭借其在商业智能和数据分析领域的深耕细作,…

网络协议通俗易懂详解指南

目录 1. 什么是网络协议? 1.1 协议的本质 1.2 为什么需要协议? 1.3 协议分层的概念 2. TCP协议详解 - 可靠的信使 📦 2.1 TCP是什么? 2.2 TCP的核心特性 🔗 面向连接 🛡️ 可靠传输 📊 流量控制 2.3 TCP三次握手 - 建立连接 2.4 TCP四次挥手 - 断开连接…