论文阅读(四):Agglomerative Transformer for Human-Object Interaction Detection

论文来源:ICCV(2023)

项目地址:https://github.com/six6607/AGER.git

1.研究背景

人机交互(HOI)检测需要同时定位人与物体对并识别其交互关系,核心挑战在于区分相似交互的细微视觉差异,这依赖于实例级线索(如人体姿势、注视方向、物体类别等)。传统方法采用两阶段框架(如先使用目标检测器生成实例提案),效率低下且难以灵活提取多类型线索。基于 Transformer 的方法(如实例查询)存在任务偏差,仅关注部分特征区域,导致线索提取不完整。

2.主要创新点

2.1 动态聚类生成实例令牌(Instance Tokens)

提出聚合 Transformer(AGER),通过文本引导的动态聚类机制将图像块令牌逐步聚合为实例令牌,确保每个令牌包含实例的完整判别特征区域(如图 1 所示),解决传统方法中实例查询仅关注局部区域的问题。

聚类过程与 Transformer 编码器结合,无需额外目标检测器或实例解码器,实现单阶段端到端学习

2.2 多线索灵活提取与高效性

实例令牌的完整性支持通过轻量级 MLP 并行提取多种实例级线索(如人体姿势、空间位置、物体类别),避免传统方法中多阶段或定制化模型的复杂性。

动态聚类减少冗余计算,相比基线方法(如 QPIC),GFLOPs 降低 8.5%,FPS 提升 36%,且图像分辨率越高,效率优势越明显。

2.3 文本引导的语义对齐

利用 CLIP 预训练模型生成文本表示,通过余弦相似性和分类概率引导实例令牌与真实实例语义对齐,增强表示的泛化性,避免任务偏差。

3.总体框架

3.1 实例编码器(Instance Encoder)

分层 Transformer 结构:包含两个阶段,每个阶段由自注意力层和聚类层组成。

动态聚类机制

初始化可学习的聚类中心(分为人类和物体),通过自注意力更新表示。

使用 Gumbel-Softmax 计算聚类中心与图像块的相似性,将语义相关的块聚合为更大的令牌,最终生成包含完整实例特征的令牌(如图 2 所示)。

文本引导通过 CLIP 文本编码器生成类别文本表示,与视觉令牌的余弦相似性损失优化聚类过程。

3.2 线索提取与聚合(Cues Extraction & Aggregation)

从实例令牌中提取三种线索:

人体姿势(P):5 层 MLP 预测 17 个关键点坐标。

空间位置(S):3 层 MLP 预测边界框。

物体类别(T):1 层 FFN 预测类别概率,结合 Word2Vec 文本嵌入。

聚合线索时通过置信度阈值(γ=0.7)过滤噪声,与实例令牌拼接后投影到统一特征空间。

3.3 交互解码器(Interaction Decoder)

采用 3 层 Transformer 解码器,枚举所有可能的人-物对,通过多模式位置嵌入处理同一对的多种交互标签。

交互查询结合人体与物体的位置嵌入,通过交叉注意力和自注意力识别交互类别。

4.损失函数

交互识别损失:焦点损失。

线索提取损失:L2 损失(姿势和位置回归)。

实例令牌生成损失:结合分类概率和文本 - 视觉余弦相似性,通过匈牙利算法匹配真实实例与生成令牌。

5.实验

5.1 计算要求

未提及

5.2 实验结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/bicheng/81955.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

部署java项目

1.编写shell脚本部署服务 restart.sh #!/bin/bash # # start the user program # echo "-------------------- start jk service --------------------" LOG_DIR"/home/joy/usr/app/ers-log" LOG_FILE"$LOG_DIR/log_$(date "%Y%m%d").txt&…

第18天-NumPy + Pandas + Matplotlib多维度直方图

示例1:带样式的柱状图 python 复制 下载 import numpy as np import pandas as pd import matplotlib.pyplot as plt# 生成数据 df = pd.DataFrame(np.random.randint(10, 100, size=(8, 4)),columns=[Spring, Summer, Autumn, Winter],index=[2015, 2016, 2017, 2018, 20…

关于 Web 安全实践:4. 文件上传功能的风险分析与防护

定义:文件上传风险点是指应用程序允许用户上传文件,但没有严格校验上传文件的类型、内容、路径等属性,导致攻击者可以上传并执行恶意代码。 绕过方式: 前端绕过 1. 前端限制的原理 前端限制上传文件类型的常见方式有三种&#…

升级SpringBoot2到3导致的WebServices升级

背景 WebServices 是基于开放标准(XML、SOAP、HTTP 等)的 Web 应用程序,它们与其他 Web 应 用程序交互以交换数据。WebServices 可以将您现有的应用程序转换为 Web 应用程序。 老代码中有一个19年前的包,由于漏洞原因,…

Vue3中插槽, pinia的安装和使用(超详细教程)

1. 插槽 插槽是指, 将一个组件的代码片段, 引入到另一个组件。 1.1 匿名插槽 通过简单的案例来学习匿名插槽,案例说明,在父组件App.vue中导入了子组件Son1.vue,父组件引用子组件的位置添加了一个片段,比如h2标签,然…

【Redis】AOF日志

目录 1、背景2、工作原理3、核心配置参数4、优缺点5、AOF文件内容 1、背景 AOF(Append Only File)是redis提供的持久化机制之一,它通过记录所有修改数据库状态的写命令来实现数据库持久化。与RDB(快照)方式不同&#…

【HTTP】connectionRequestTimeout与connectTimeout的本质区别

今天发现有的伙伴调用第三方 httpclient 的配置中 connectTimeout 和 connectionRequestTimeout 配置的不到 1 S,问了一下他,知不知道这两个参数的意思,他说不知道。那我们今天就来了解一下这两个参数的区别 一、核心概念解析 1.1 connectT…

react中运行 npm run dev 报错,提示vite.config.js出现错误 @esbuild/win32-x64

在React项目中运行npm run dev时,如果遇到vite.config.js报错,提示esbuild/win32-x64在另一个平台中被使用,通常是由于依赖冲突或缓存问题导致的。解决方法是删除node_modules文件夹,并重新安装依赖。 如下图: 解决办…

EMQX开源版安装指南:Linux/Windows全攻略

EMQX开源版安装教程-linux/windows 因最近自己需要使用MQTT,需要搭建一个MQTT服务器,所以想到了很久以前用到的EMQX。但是当时的EMQX使用的是开源版的,在官网可以直接下载。而现在再次打开官网时发现怎么也找不大开源版本了,所以…

Python:操作Excel按行写入

Python按行写入Excel数据,5种实用方法大揭秘! 在日常的数据处理和分析工作中,我们经常需要将数据写入到Excel文件中。Python作为一门强大的编程语言,提供了多种库和方法来实现将数据按行写入Excel文件的功能。本文将详细介绍5种常见的Python按行写入Excel数据的方法,并附上…

vue3中RouterView配合KeepAlive实现组件缓存

KeepAlive组件缓存 为什么需要组件缓存代码展示缓存效果为什么不用v-if 为什么需要组件缓存 业务需求&#xff1a;一般是列表页面通过路由跳转到详情页&#xff0c;跳转回来时&#xff0c;需要列表页面展示上次展示的内容 代码展示 App.vue入口 <script setup lang"…

【JAVA】比较器Comparator与自然排序(28)

JAVA 核心知识点详细解释 Java中比较器Comparator的概念和使用方法 概念 Comparator 是 Java 中的一个函数式接口,位于 java.util 包下。它用于定义对象之间的比较规则,允许我们根据自定义的逻辑对对象进行排序。与对象的自然排序(实现 Comparable 接口)不同,Comparat…

浪潮服务器配置RAID和JBOD

目录 1 配置RAID2 设置硬盘为JBOD模式3 验证结果 1 配置RAID 进入 bios 界面 选择 “高级” - “UEFI-HII配置” 选择 raid 卡 进入 Main Menu 点击 Driver Management&#xff0c;可以查询当前硬盘 返回上一级&#xff0c;点击 Configuration Management - Create virtu…

mongodb管理工具的使用

环境&#xff1a; 远程服务器的操作系统&#xff1a;centOS stream 9; mongoDB version:8.0; 本地电脑 navicat premium 17.2 ; 宝塔上安装了mongoDB 目的&#xff1a;通过本地的navicat链接mongoDB,如何打通链接&#xff0c;分2步&#xff1a; 第一步&#xff1a;宝塔-&…

03-Web后端基础(Maven基础)

1. 初始Maven 1.1 介绍 Maven 是一款用于管理和构建Java项目的工具&#xff0c;是Apache旗下的一个开源项目 。 Apache 软件基金会&#xff0c;成立于1999年7月&#xff0c;是目前世界上最大的最受欢迎的开源软件基金会&#xff0c;也是一个专门为支持开源项目而生的非盈利性…

实景VR展厅制作流程与众趣科技实景VR展厅应用

实景VR展厅制作是一种利用虚拟现实技术将现实世界中的展览空间数字化并在线上重现的技术。 这种技术通过三维重建和扫描等手段&#xff0c;将线下展馆的场景、展品和信息以三维形式搬到云端数字空间&#xff0c;从而实现更加直观、立体的展示效果。在制作过程中&#xff0c;首…

Python爬虫实战:获取天气网最近一周北京的天气数据,为日常出行做参考

1. 引言 随着互联网技术的发展,气象数据的获取与分析已成为智慧城市建设的重要组成部分。天气网作为权威的气象信息发布平台,其数据具有较高的准确性和实时性。然而,人工获取和分析天气数据效率低下,无法满足用户对精细化、个性化气象服务的需求。本文设计并实现了一套完整…

几种超声波芯片的特点和对比

一 CX20106A ZIP - 8 CX20106A ZIP - 8 的核心竞争力在于高性价比、易用性和抗光干扰能力&#xff0c;尤其适合消费电子、短距离工业检测和低成本物联网场景。尽管在距离和精度上不及高端芯片&#xff0c;但其成熟的电路方案和广泛的市场应用&#xff08;如经典红外遥控升级为超…

利用ffmpeg截图和生成gif

从视频中截取指定数量的图片 ffmpeg -i input.mp4 -ss 00:00:10 -vframes 1 output.jpgffmpeg -i input.mp4 -ss 00:00:10 -vframes 180 output.jpg -vframes 180代表截取180帧, 实测后发现如果视频是60fps,那么会从第10秒截取到第13秒-i input.mp4&#xff1a;指定输入视频文…

系统架构设计师案例分析题——数据库缓存篇

一.核心知识 1.redis和MySQL的同步方案怎么做的&#xff1f; 读数据&#xff1a;先查询缓存&#xff0c;缓存不存在则查询数据库&#xff0c;然后将数据新增到缓存中写数据&#xff1a;新增时&#xff0c;先新增数据库&#xff0c;数据库成功后再新增缓存&#xff1b;更新和删…