world models and Human–Object Interaction (HOI)

Author: Chatgpt
Here are several key research papers that explore the intersection of world models and Human–Object Interaction (HOI)—especially ones that build structured, object-centric representations from videos or use world-model-based learning to plan object-rich interactions.


🧠 1. FOCUS: Object‑Centric World Models for Robotic Manipulation (Jul 2023)

Proposes a model-based RL agent, FOCUS, that builds a structured world model by encoding objects into separate latent vectors. It guides exploration toward object interaction and enables efficient task learning across environments like ManiSkill2 or Robosuite, even on real Franka robot hardware. Object-centric focus improves exploration and sample efficiency in sparse‑reward manipulation tasks. (arXiv, Frontiers)


🔧 2. Structured World Models from Human Videos (RSS’23)

Also known as SWIM (or SWIM/SWIMROC), this approach pre-trains world models using human video data. The affordance-based, human-centric structured action space lets robots learn diverse manipulation skills in just ~30 minutes of real robot experience. This model enables generalization beyond robot-specific embodiment. (Medium)


🎛️ 3. Structured World Models from Human Videos (Paper: Structured World Models from Human Videos)

Same as above, centered on leveraging human video to learn affordance-grounded world models that encode object interactions, enabling goal-based planning and policy execution even with limited robot experience.


🖐️ 4. Human‑Object Interaction with Vision‑Language Model Guided Relative Movement Dynamics (RMD‑HOI) — Mar 2025

Introduces a framework where vision-language models translate free-form instructions into Relative Movement Dynamics (RMD) guiding language‑conditioned reinforcement learning. The model allows long‑horizon, multi-round HOI planning—even with dynamic and articulated objects. It couples semantic instruction, perception, and motion planning. (arXiv)


🌍 5. OpenHOI: Open‑World HOI Synthesis with Multimodal LLM — May 2025

OpenHOI brings together affordance grounding, language decomposition, and an affordance-driven diffusion model with physics-based refinement. It enables generation of long-horizon hand-object interactions from language commands over novel objects. This is essentially world-model-informed HOI synthesis grounded in affordance and physics. (arXiv)


🔄 6. Vision-Based Manipulation from Single Human Video (ORION)

Learn manipulation policies from a single RGB-D human demonstration using Open-world Object Graphs (OOGs)—structured, object- and hand-centric representations. ORION constructs manipulation plans that generalize across spatial layouts, backgrounds, and unseen object instances. (arXiv)


📚 7. World Model Foundations

  • Ha & Schmidhuber (2018) original definition: VAE for perception, RNN for dynamics, policy head for control.
  • LeCun (2022): world models as neural “mental simulation” for commonsense reasoning, often incorporated in embodied agents. (维基百科)

📊 Summary Table

Paper / ModelDomainWorld-Model StructureHOI Aspect
FOCUSRL / roboticsObject-centric latent dynamicsFocused exploration, object manipulation
SWIM (Structured WM)Pre‑training RLAffordance action world modelFrom human videos → robot affordance plans
RMD‑HOIHOI / RLLanguage-guided dynamics modelVision-language → sequential HOI planning
OpenHOIMultimodal HOIAffordance+diffusion + world modelOpen-world HOI synthesis with physics
ORIONImitation from videoObject-graph world plan extractionSingle-demo generalizable HOI policies

💡 Why These Matter

  • Object-centric representations in world models (like FOCUS, SWIM, ORION) enable models to capture and reason about interactions more efficiently and generalize better.
  • Affordance-guided structures bridge perception and action, enabling tasks to be grounded even from limited data.
  • Language-guided dynamics planning (RMD‑HOI, OpenHOI) allows long-horizon sequential HOI planning from natural instructions.
  • These methods enable zero-/few-shot generalization to new objects, instructions, or environments.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/89438.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/89438.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

无人值守共享自习室物联系统安全防线:从设备到数据的全面防护策略!

在“全民学习”浪潮的推动下,无人值守共享自习室凭借24小时开放、灵活预约和沉浸式体验,已成为城市学习空间的新形态。而当人力值守被物联网设备替代后,安全风险却从物理世界延伸到了数字世界。一套完整的自习室物联网系统包含门禁、传感器、…

【27】MFC入门到精通——MFC 修改用户界面登录IP IP Address Control

界面搭建 将【IP Address Control】控件,【Edit Control】控件和两个【button】控件分别拖入主界面 将ID分别修改为:IDC_IP_ADDRESS IDC_IPADDRESS_EDIT IDC_GET_BUTTON IDC_CLEAN_BUTTON添加变量 为【IP Address Control】控件添加变量【m_IPaddress】&…

MacOS安装linux虚拟机

在学习docker时用的云环境本身就是一个容器,启动docker总是各种问题,所以直接在本机上装一个虚拟机。 当前系统环境: 安装虚拟机软件 安装UTM 下载官网:https://mac.getutm.app/ uname -m查看一下指令架构,下载…

TimSort:论Java Arrays.sort的稳定性

TimSort 是一种混合的、稳定的排序算法,结合了归并排序(Merge Sort)和二分插入排序(Binary Insertion Sort)的优点,尤其适用于部分有序的数据。在 Java 中,Arrays.sort() 对对象数组排序时内部使…

企业数据生命周期安全架构设计

数据是企业的生命线,而安全则是这条生命线的保护神。今天我们就来聊聊如何为企业数据的一生一世构建一套坚不可摧的安全防护体系。 📚 文章目录 为什么需要数据生命周期安全架构数据生命周期全景图安全架构设计的核心原则各阶段安全防护策略整体安全架构…

【Java】字符串常量池

文章目录一.字符串常量池(StringTable)1.1 定义1.2 演示示例1.3 intern方法一.字符串常量池(StringTable) 1.1 定义 字符串常量词本质是一个固定大小的HashTable。当用一个字符串构造String对象时,首先会去StringTable中查看是否存在在字符串,如果存在…

数据通信与计算机网络——模拟传输

主要内容数字到模拟转换幅移键控ASK频移键控FSK相移键控PSK正交振幅调制QAM模拟信号调制调幅AM调频FM调相PM一、数字到模拟转换数字信号需要低通通道,如果现实应用中只有带通通道,只能选择模拟信号进行传输。将数字数据转换为带通模拟信号,传…

如何用Python并发下载?深入解析concurrent.futures 与期物机制

concurrent.futures模块的核心价值 Python的concurrent.futures模块提供了线程池(ThreadPoolExecutor)和进程池(ProcessPoolExecutor)两种并发模型,通过高层接口简化并发编程。其核心优势在于: 自动管理资源…

MMKV 存储json list数据(kotlin)

1、添加依赖与初始化 首先在 build.gradle 中添加 MMKV 依赖: implementationcom.tencent:mmkv:1.2.12 在 Application 类中初始化 MMKV: import android.app.Application import com.tencent.mmkv.MMKVclass MyApp : Application() { override fun onCreate() { super.o…

C++ -- STL-- stack and queue

////// 欢迎来到 aramae 的博客,愿 Bug 远离,好运常伴! ////// 博主的Gitee地址:阿拉美 (aramae) - Gitee.com 时代不会辜负长期主义者,愿每一个努力的人都能达到理想的彼岸。1. stack的介绍和使用 2. queue的介绍…

信息论至AI实践:交叉熵的原理全景与应用深度解析

1 定义与数学原理:从信息论到分布差异度量 交叉熵(Cross Entropy)是信息论中用于量化两个概率分布差异的核心概念,由Claude Shannon的信息论发展而来。它测量了在相同事件集合上,使用估计的概率分布q对服从真实概率分…

WAF 能防御哪些攻击?

WAF(Web 应用防火墙)是网站和Web应用的安全守门人,但很多用户对其具体防御范围一知半解。实际上,WAF 能针对性拦截多种网络攻击,从常见的注入攻击到复杂的恶意爬虫,覆盖Web安全的核心威胁。本文详解WAF的防…

闲庭信步使用图像验证平台加速FPGA的开发:第二十二课——图像直方图统计的FPGA实现

(本系列只需要modelsim即可完成数字图像的处理,每个工程都搭建了全自动化的仿真环境,只需要双击top_tb.bat文件就可以完成整个的仿真,大大降低了初学者的门槛!!!!如需要该系列的工程…

群晖中相册管理 immich大模型的使用

相对于其他的相册管理软件,Immich的智能搜索和人脸识别功能是其优势,通过应用机器学习模型,其智能搜索和人脸识别功能更为先进。 一、大模型的下载与安装 网上有大佬提供了相关大模型的下载:https://url22.ctfile.com/d/58003522…

在 Windows 上使用 Docker 运行 Elastic Open Crawler

作者:来自 Elastic Matt Nowzari 了解如何使用 Docker 在 Windows 环境中运行 Open Crawler。 了解将数据摄取到 Elasticsearch 的不同方式,并深入实践示例,尝试一些新方法。 Elasticsearch 拥有大量新功能,助你为特定场景构建最…

iOS高级开发工程师面试——RunTime

iOS高级开发工程师面试——RunTime 一、简介 二、介绍下 RunTime 的内存模型(isa、对象、类、metaclass、结构体的存储信息等) 对象 类 三、为什么要设计 metaclass ? 四、class_copyIvarList & class_copyPropertyList区别? 五、class_rw_t 和 class_ro_t 的区别? 六…

实现分页查询

分页查询分页查询语句项目中添加分页功能按钮设置前后端代码功能实现分页查询语句 限制查询的 sql 语句: select * from student limit 0,4sql 查询结果如下: 分页查询的每一页都对应一行 sql 语句,若每一行都写单独对应的 sql 语句不仅重复…

[QOI] qoi_desc | qoi_encode | qoi_decode

链接:https://phoboslab.org/log/2021/11/qoi-fast-lossless-image-compression (看代码设计的时候,真的大为震撼,伟大的algorithm T.T) docs:QOI图像格式 qoi项目提出了Quite OK Image(QOI&am…

智慧城轨可视化:一屏智管全城

图扑智慧城轨可视化系统,把地铁线路、车站、列车都搬进三维画面。列车晚点预警、站台拥挤提示、设备故障定位…… 这些关键信息一屏聚合,调度员能快速调整发车频次,疏导高峰客流。遇上突发情况,系统联动应急方案,同步显…

包新的Git安装与使用教程(2024九月更新)

目录 一、安装git 1.下载git 2.git安装 3.环境变量配置与测试 二、使用教程 1.创建版本库 2.版本回退 3.删除和恢复文件 一、安装git 1.下载git 官方下载地址:https://git-scm.com/download 然后进入以下页面,点击下载链接即可(windows一般都是…