Reason-before-Retrieve(CVPR 2025)

研究方向:Image Captioning

论文全名:《Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval

1. 论文介绍

组合图像检索(CIR)旨在检索与参考图像密切相似的目标图像,同时整合用户指定的文本修改,从而更准确地捕捉用户意图。

本文提出了一种新颖的无训练的单阶段方法,用于零样本组合图像检索(ZS-CIR)的单阶段反思思维链推理(OSrCIR),该方法采用多模态大型语言模型来保留必要的视觉信息在单阶段推理过程中进行改进,消除了两阶段方法中的信息丢失。我们的反思思维链框架通过将操纵意图与参考图像的上下文线索对齐来进一步提高解释准确性。

2. 方法介绍

给定一个参考图像I_r 和一个操作文本 T_m,ZS-CIR从图像数据库 D中检索出与I_r在视觉上相似的图像,同时结合T_m中指定的修改。

我们将目标图像描述T_t作为基于多模态大型语言模型(MLLM)\phi M的组合查询进行推理,为了确保 \phi M以人类可理解的方式推理 T_t,我们引入了一个反思思维链提示p_c​。然后使用获得的目标图像描述T_t通过CLIP进行图像检索,并使用预训练文本编码器\phi T将目标图像描述T_t和候选图像I_c嵌入到一个共享的、可搜索的空间中。用余弦相似度计算 cos(\phi_I(I_c),\phi_T(T_t))匹配分数。

2.1 单阶段推理过程

给定一个多语言语言模型 \phi M​,我们按如下方式生成包含用户对参考图像I_r的操作意图T_m的目标图像描述T_t

T_t = \phi_M(p_c\circ I_r\circ T_m)

2.2 反思思维链用于ZS-CIR

反思CoT提示指导以下逐步推理步骤:

原始图像描述:原始图像描述步骤突出显示参考图像中与用户意图相关的视觉细节。

思考:思维步骤捕捉用户的意图和对可能被操纵的视觉元素的推理。

反思:进一步评估这些元素以识别那些最符合用户意图的内容。

目标图像描述:基于与目标检索最相关的视觉修改生成精炼的描述。

语境中的语言引导视觉学习:单纯为反思性CoT过程提供指导对于大型语言模型理解每一步骤所需的CoT过程是不足够的。我们利用在语境中学习的方法,该方法通过提供一些预期的大型语言模型输出的文本示例,而不需要参考图像,来指导大型语言模型在每个步骤中的推理过程。

组合图像检索:给定目标图像描述 T_t,我们的模型使用一个冻结的预训练CLIP对图像搜索数据库 D 和T_t进行编码。重新检索到的目标图像I_t确定如下:

I_t = \arg\max_{I_r \in D} \frac{\phi_I(I_r)^\top \phi_T(T_t)}{\|\phi_I(I_r)\| \|\phi_T(T_t)\|}

其中选定的目标图像I_t是与生成的目标图像描述最相似的一个。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/93092.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/93092.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Idefics2:构建视觉-语言模型时,什么是重要的

温馨提示: 本篇文章已同步至"AI专题精讲" Idefics2:构建视觉-语言模型时,什么是重要的 摘要 随着large language models和vision transformers的进步,视觉-语言模型(VLMs)受到了越来越多的关注…

再谈fpga开发(fpga调试方法)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】我们之前在学校学习c、c的时候,其实学校漏掉了很重要的一个教学环节,那就是调试、测试。很多时候我们代码写出来了&#xff…

C语言中的数据结构--栈和队列(1)

前言本届开始我们将对数据结构中栈的内容进行讲解,那么废话不多说,我们正式进入今天的学习栈栈是一种很特殊的线性表,它只能在固定的一端进行插入和删除操作,进行数据的插入和删除的一端叫做栈顶,另外一端叫做栈底,栈中的元素遵守…

字符串是数据结构还是数据类型?

比较纠结的一个问题,以下是在网上查到后总结的,不知道对不对,欢迎讨论。这是个触及计算机科学核心概念的精妙问题!字符串既可以被视为一种数据类型,也可以被视为一种数据结构,这取决于你观察的视角和讨论的…

Cline与Cursor深度实战指南:AI编程助手的革命性应用

引言 在AI编程工具快速发展的今天,Cline和Cursor作为两款备受瞩目的AI编程助手,正在重新定义开发者的工作方式。作为一名深度使用这两款工具的开发者,我在过去一年的实践中积累了丰富的经验和独到的见解。本文将从技术角度深入分析Cline和Cur…

根本是什么

根本是什么 根本没有了,枝叶还在么? 没有了内涵,外延还有么? 丢弃了根本,再嗨也是无意义,无根据空虚之乐罢了。 人之所行所言所思所想所念皆欲念、历程感怀,情思。所谓得失过往,时空…

springboot基于Java的人力资源管理系统设计与实现

管理员:登录,个人中心,部门管理,员工管理,培训信息管理,员工奖励管理,员工惩罚管理员工考核管理,调薪信息管理,员工调动管理,员工工资管理员工:注…

金字塔降低采样

文章目录image_scale.hppimage_scale.cppmainimage_scale.hpp #ifndef IMAGE_SCALE_HPP #define IMAGE_SCALE_HPP#include <vector> #include <cstdint> #include <utility> // for std::pair #include <algorithm> #include <string> enum cl…

Filament引擎(四)——光照渲染Froxelizer实现分析

Froxelizer主要是用于filament光照效果的实现&#xff0c;生成光照渲染时所需的必要信息&#xff0c;帮助渲染过程中明确哪些区域受哪些光源所影响&#xff0c;是Filament中保证光照效果渲染效率的核心所在。这部分的源码&#xff0c;可以结合filament官方文档中Light Path部分…

2025 环法对决,VELO Angel Glide 坐垫轻装上阵

2025环法第16赛段的风秃山之巅&#xff0c;当最后一缕夕阳沉入云层&#xff0c;山风裹挟着砾石的气息掠过赛道&#xff0c;一场足以载入史册的激战正酣。帕雷-潘特的肌肉在汗水里贲张&#xff0c;链条与齿轮的咬合声混着粗重喘息&#xff0c;在171.5公里赛程的最后3公里陡坡上&…

Linux程序->进度条

进度条最终效果&#xff1a; 目录 进度条最终效果&#xff1a; 一&#xff1a;两个须知 1&#xff1a;缓冲区 ①&#xff1a;C语言自带缓冲区 ②&#xff1a;缓冲区的刷新策略 2&#xff1a;回车和换行的区别 二&#xff1a;倒计时程序 三&#xff1a;入门板进度条的实…

Python爬虫实战:研究tldextract库相关技术构建新闻网站域名分析爬虫系统

1. 引言 网络爬虫作为一种自动获取互联网信息的技术,在数据挖掘、信息检索、舆情分析等领域有着广泛的应用。Python 因其丰富的库和简洁的语法,成为了开发爬虫的首选语言。tldextract 是 Python 中一个强大的域名解析库,能够准确地从 URL 中提取顶级域名、二级域名等关键信…

【算法-华为机试-火星基地改造】

基地改造题目描述目标输入输出代码实现题目描述 在2XXX年&#xff0c;人们发现了一块火星地区&#xff0c;这里看起来很适合建设新家园。但问题是&#xff0c;我们不能一次性将这片地区的空气变得适合人类居住&#xff0c;得分步骤来。 把这片火星地区想象成一个巨大的棋盘。棋…

C++入门自学Day1-- C语言的宏函数和C++内联函数

一、函数调用开销函数调用会涉及&#xff1a;参数压栈&#xff08;或寄存器传参&#xff09;跳转到函数体返回值处理栈帧销毁这个过程对小函数来说可能非常浪费&#xff0c;因此&#xff0c;宏函数和内联函数的目的就是避免“函数调用的开销”&#xff0c;通过代码展开&#xf…

Pytorch混合精度训练最佳实践

混合精度训练&#xff08;Mixed Precision Training&#xff09;是一种通过结合单精度&#xff08;FP32&#xff09;和半精度&#xff08;FP16/FP8&#xff09;计算来加速训练、减少显存占用的技术。它在保持模型精度的同时&#xff0c;通常能带来 2-3 倍的训练速度提升&#x…

Qt C++动态库SDK在Visual Studio 2022使用(C++/C#版本)

01 将C SDK 集成到 IDE 中以下是在 Microsoft Visual Studio 平台下 SDK 的集成。2.1 Visual Studio 平台下 C/C环境配置及集成到 IDE 中xxx.lib 和 xxx.dll 适合在 Windows 操作系统平台使用&#xff0c;这里以 VS2022 环境为例。2.1.1 C/C 工程环境配置与集成1、C# SDK 接口…

大语言模型 LLM 通过 Excel 知识库 增强日志分析,根因分析能力的技术方案(2):LangChain + LlamaIndex 实现

文章大纲 1 技术原理总览 2 详细实现步骤(含代码) 2.1 环境准备 2.2 Excel → LlamaIndex 节点 2.3 构建向量索引(FAISS 本地) 2.4 Google Cloud 向量检索(可选替换 FAISS) 2.5 LangChain 问答链 A. RAG 模式(向量检索 + LLM 生成) B. SQL 模式(无 RAG,直接查表) 2.…

提升ARM Cortex-M系统性能的关键技术:TCM技术解析与实战指南

文章目录引言一、TCM基础架构与工作原理1.1 TCM的物理特性1.2 与缓存机制的对比1.3 ARM Cortex-M系列对TCM的支持二、TCM的典型应用场景2.1 实时中断处理2.2 低功耗模式下的待机代码2.3 高性能算法执行2.4 系统初始化阶段的关键代码三、实战指南&#xff1a;在STM32H7上配置和优…

大数据之路:阿里巴巴大数据实践——大数据领域建模综述

为什么需要数据建模 核心痛点 数据冗余&#xff1a;不同业务重复存储相同数据&#xff08;如用户基础信息&#xff09;&#xff0c;导致存储成本激增。计算资源浪费&#xff1a;未经聚合的明细数据直接参与计算&#xff08;如全表扫描&#xff09;&#xff0c;消耗大量CPU/内存…

实战演练1:实战演练之命名实体识别

实战演练1:实战演练之命名实体识别 命名实体识别简介 代码 命名实体识别简介 什么是命名实体识别任务 命名实体识别(Named Entity Recognition,简称NER)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。通常包括两部分: (1)实体边界识别。(2)确定…