论文阅读（六）Open Set Video HOI detection from Action-centric Chain-of-Look Prompting

论文阅读（六）Open Set Video HOI detection from Action-centric Chain-of-Look Prompting

web/2025/6/6 21:34:33/文章来源:https://blog.csdn.net/m0_73426012/article/details/148363942

论文来源：ICCV（2023）

项目地址：https://github.com/southnx/ACoLP

1.研究背景与问题

开放集场景下的泛化性：传统 HOI 检测假设训练集包含所有测试类别，但现实中存在大量未见过的 HOI 类别（如 “修理自行车” 在训练中未出现）。视频 HOI 需处理时间动态信息（如 “打开”“关闭” 等时序动作），静态图像方法无法直接迁移。

时序信息建模困难：视频中的交互依赖连续帧的时空关系，现有方法多聚焦物体和人体特征，忽略动作本身的语义核心作用。

现有方法局限：

缺乏动作中心建模：多数方法以物体 / 人体为中心，忽视动词（动作）的核心语义价值。
开放集能力不足：未显式设计泛化机制，难以识别训练未见的 HOI 类别。

2.核心创新点

2.1 动作中心的链式视觉提示（Chain-of-Look Prompting）

灵感来源：自然语言处理中的 “思维链”（Chain-of-Thought）提示，将复杂推理分解为中间步骤。

视频 HOI 的视觉推理分解：
- 视觉语义推理网络（VSR）：
  - CaptionHOI 提示（CHP）：利用 CLIP 和 BLIP 生成全局语义提示，融合图像字幕的高层语义（如 “人正在骑自行车”）。
  - VisualHOI 提示（VHP）：通过目标检测提取人机对视觉特征，增强局部视觉信息（如人体姿势、物体位置）。
- 时空推理网络（STR）：
  - 动作提示（AP）：将帧级视觉特征抽象为动作提示（如 “推”“拉”），对齐视觉与语义空间。
  - 动态 GNN（D-GNN）：建模跨帧动作的时间依赖，传播语义信息以捕捉时序动态（如 “开门” 的连续动作）。

2.2 开放集泛化机制

预训练视觉 - 语言模型（CLIP）的零样本能力：
- 通过 CLIP 文本编码器生成动作和 HOI 类别的语义嵌入，利用其视觉 - 语言对齐能力识别未见类别。
分层推理链：
- 通过 CHP→VHP→AP→D-GNN 的链式结构，逐步从全局语义、局部视觉、动作抽象到时空动态，增强泛化性。

2.3 端到端的视频 HOI 检测框架

两阶段流程：
- 目标检测：使用 Faster R-CNN 提取人机边界框和实例特征。
- 交互预测：通过 VSR 和 STR 生成动作与 HOI 提示，结合多层感知机（MLP）预测交互类别和边界框。

3.实验

3.1 计算要求

100 epochs on 4 GPUs with a batch size of 128（未提及具体显卡类型）

3.2 实验结果

4.结论与展望

4.1 贡献总结

首个开放集视频 HOI 检测模型：通过动作中心的链式提示机制，显式建模动作语义和时序动态。

高效泛化能力：利用 CLIP 的零样本能力和动态 GNN 的时序建模，显著提升未见类别的检测性能。

双模态推理框架：融合全局语义、局部视觉和时空动态，在开放集和封闭集场景均达 SOTA。

4.2 局限与未来方向

局限：对极低频交互（如单样本）泛化能力有限；计算成本较高（依赖预训练模型）。

未来方向：引入动态提示调整机制；探索无锚框的端到端检测；扩展至更长时序的视频片段。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.pswp.cn/web/82290.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

74道Node.js高频题整理(附答案背诵版)

74道Node.js高频题整理(附答案背诵版)

简述 Node. js 基础概念 ？ Node.js是一个基于Chrome V8引擎的JavaScript运行环境。它使得JavaScript可以在服务器端运行，从而进行网络编程，如构建Web服务器、处理网络请求等。Node.js采用事件驱动、非阻塞I/O模型，使其轻量且高效…

阅读更多...

年龄是多少

年龄是多少

有5个人坐在一起，问第五个人多少岁？他说比第四个人大两岁。问第四个人岁数，他说比第三个人大两岁。问第三个人，又说比第二个人大两岁。问第二个人，说比第一个人大两岁。最后问第一个人，他说是10岁。请问他们…

阅读更多...

华为OD机试真题——模拟消息队列（2025A卷：100分）Java/python/JavaScript/C++/C语言/GO六种最佳实现

华为OD机试真题——模拟消息队列（2025A卷：100分）Java/python/JavaScript/C++/C语言/GO六种最佳实现

2025 A卷 100分题型本文涵盖详细的问题分析、解题思路、代码实现、代码详解、测试用例以及综合分析；并提供Java、python、JavaScript、C++、C语言、GO六种语言的最佳实现方式！ 2025华为OD真题目录+全流程解析/备考攻略/经验分享华为OD机试真题《模拟消息队列》：目录题…

阅读更多...

LangChain-结合GLM+SQL+函数调用实现数据库查询(三)

LangChain-结合GLM+SQL+函数调用实现数据库查询(三)

针对 LangChain-结合GLM+SQL+函数调用实现数据库查询(二)-CSDN博客进一步简化通过 LangChain 和大语言模型（GLM-4）实现了一个 AI 代理，能够根据自然语言提问自动生成 SQL 查询语句，并连接 MySQL 数据库执行查询，最终返回结果。整个流程如下：用户提问 → AI 生成 SQ…

阅读更多...

ZLG ZCANPro，ECU刷新，bug分享

ZLG ZCANPro，ECU刷新，bug分享

文章目录摘要 📋问题的起因bug分享 ✨思考&反思 🤔摘要 📋 ZCANPro想必大家都不陌生，买ZLG的CAN卡，必须要用的上位机软件。在汽车行业中，有ECU软件升级的需求，通常都通过UDS协议实现程序的更新，满足UDS升级的上位机要么自己开发，要么用CANoe或者VFlash，最近…

阅读更多...

第2期：APM32微控制器键盘PCB设计实战教程

第2期：APM32微控制器键盘PCB设计实战教程

第2期：APM32微控制器键盘PCB设计实战教程一、APM32小系统介绍使用apm32键盘小系统开源工程操作 APM32是一款与STM32兼容的微控制器，可以直接替代STM32进行使用。本教程基于之前开源的APM32小系统，链接将放在录播评论区中供大家参考。 1…

阅读更多...

单元测试-断言常见注解

单元测试-断言常见注解

目录 1.断言 2.常见注解 3.依赖范围 1.断言断言练习 package com.gdcp;import org.junit.jupiter.api.Assertions; import org.junit.jupiter.api.Test;//测试类 public class UserServiceTest {Testpublic void testGetGender(){UserService userService new UserService…

阅读更多...

每日算法-250602

每日算法-250602

每日算法学习记录 - 250602 今天学习和复习了两道利用前缀和与哈希表解决的子数组问题，特此记录。 560. 和为 K 的子数组题目思路本题的核心思想是利用前缀和与哈希表来优化查找过程。解题过程题目要求统计和为 k 的子数组个数。我们首先预处理出一…

阅读更多...

Arch安装botw-save-state

Arch安装botw-save-state

devkitPro https://blog.csdn.net/qq_39942341/article/details/148387077?spm1001.2014.3001.5501 cargo https://blog.csdn.net/qq_39942341/article/details/148387783?spm1001.2014.3001.5501 megaton https://blog.csdn.net/qq_39942341/article/details/148388164?spm…

阅读更多...

STM32学习笔记---时钟树

STM32学习笔记---时钟树

目录一、时钟树：M3---STM32F103 1、主要时钟来源 2、时钟系统线路分析 HSE时钟 HSI时钟 LSE时钟 LSI时钟 PPLCLK ---锁相环时钟 SYSCLK ---系统时钟 HCLK时钟 PCLK1时钟 PCLK2时钟 3、时钟树简图 4、构成部分作用分析二、时钟树：M4-…

阅读更多...

35.x64汇编写法（二）

35.x64汇编写法（二）

免责声明：内容仅供学习参考，请合法利用知识，禁止进行违法犯罪活动！ 本次游戏没法给内容参考于：微尘网络安全上一个内容：34.x64汇编写法（一） 上一个内容写了，汇编调…

阅读更多...

钩子函数的作用（register_hook）

钩子函数的作用（register_hook）

钩子函数仅在backward()时才会触发。其中，钩子函数接受梯度作为输入，返回操作后的梯度，操作后的梯度必须要输入的梯度同类型、同形状，否则报错。主要功能包括： 监控当前的梯度（不返回值）&…

阅读更多...

【头歌实验】Keras机器翻译实战

【头歌实验】Keras机器翻译实战

【头歌实验】Keras机器翻译实战第1关：加载原始数据编程要求根据提示，在右侧编辑器补充代码，实现load_data函数，该函数需要加载path所代表的文件中的数据，并将文件中所有的内容按\n分割，转换成一个列表…

阅读更多...

python中使用高并发分布式队列库celery的那些坑

python中使用高并发分布式队列库celery的那些坑

python中使用高并发分布式队列库celery的那些坑 🌟 简单理解🛠️ 核心功能🚀 工作机制📦 示例代码（使用 Redis 作为 broker）🔗 常见搭配📦 我的环境📦第一个问题&#x1…

阅读更多...

截图工具 Snipaste V2.10.7(2025.06.2更新)

截图工具 Snipaste V2.10.7(2025.06.2更新)

—————【下载地址】——————— 【本章下载一】：https://pan.xunlei.com/s/VORklK9hcuoI6n_qgx25jSq2A1?pwde7bi# 【本章下载二】：https://pan.quark.cn/s/7c62f8f86735 【百款黑科技】：https://ucnygalh6wle.feishu.cn/wiki/…

阅读更多...

batch_size 参数最优设置

batch_size 参数最优设置

在深度学习训练中，batch_size（批量大小）的选择是一个需要权衡的问题，既不是越大越好，也不是越小越好，而是需要根据硬件资源、数据规模、模型复杂度和优化目标等因素综合决定。以下是详细分析：

阅读更多...

【agent开发】部署LLM（一）

【agent开发】部署LLM（一）

本周基本就是在踩坑，没什么实质性的进展下载模型文件推荐一个网站，可以简单计算下模型推理需要多大显存：https://apxml.com/tools/vram-calculator 我的显卡是RTX 4070，有12GB的显存，部署一个1.7B的Qwen3应该问题…

阅读更多...

大数据-274 Spark MLib - 基础介绍机器学习算法剪枝后剪枝 ID3 C4.5 CART

大数据-274 Spark MLib - 基础介绍机器学习算法剪枝后剪枝 ID3 C4.5 CART

点一下关注吧！！！非常感谢！！持续更新！！！ 大模型篇章已经开始！ 目前已经更新到了第 22 篇：大语言模型 22 - MCP 自动操作 FigmaCursor 自动设计原型 Java篇开…

阅读更多...

flutter常用动画

flutter常用动画

Flutter 动画基础概念术语解释Animation表示动画的值，通常是一个 double (0.0 ~ 1.0) 或其他数值。AnimationController管理动画的时间进度和状态。需要 Ticker (vsync) 来驱动。Tween定义动画的取值范围，如从 0.0 到 1.0，从红色到蓝色。Cu…

阅读更多...

Python打卡DAY43

Python打卡DAY43

复习日作业： kaggle找到一个图像数据集，用cnn网络进行训练并且用grad-cam做可视化进阶：并拆分成多个文件我选择ouIntel Image Classification | Kagglezz，该数据集分为六类，包含建筑、森林、冰川、山脉、海洋和街道…

阅读更多...

最新文章