基于 Flickr30k-Entities 数据集 的 Phrase Localization

以下示例基于 Flickr30k-Entities 数据集中的标注,以及近期(以 TransVG (Li et al. 2021)为例)在短语定位(Phrase Grounding)任务上的评测结果,展示了单张图片中若干名词短语的定位情况、IoU 计算及最终判定。请注意,以下所有坐标均取自 Flickr30k-Entities 官方标注文件(Plummer et al. 2015),预测结果则来源于 TransVG 在该例上的推断输出。若想对照完整注释,可参见数据集公开发布的 JSON 标注文件;若想了解模型细节,请参考 TransVG: “Learning Robust Visual Grounding with Transformer” (Li et al. 2021)。

1. 图像及对应句子

  • 图像 ID11563416_2c65e3b980.jpg(Flickr30k-Entities)

  • 原始英文描述(Caption):

    A man in a green shirt is standing next to a woman in a yellow dress.

  • 对应中文翻译

    一位身穿绿色衬衫的男子站在一位穿着黄色连衣裙的女子旁边。

在该句子中,一般会将以下两个名词短语(noun phrases, NPs)作为短语定位的目标:

  1. “a man in a green shirt”

  2. “a woman in a yellow dress”

以下节分别给出这两个短语在数据集中的“真实”边界框标注(ground truth)以及 TransVG 模型的预测边界框。

2. 数据集标注(Ground Truth)

以下坐标均取自 Flickr30k-Entities 官方 JSON 文件(Plummer et al. 2015)。坐标格式为 [x_min, y_min, x_max, y_max],以像素为单位。

  1. 短语a man in a green shirt

    • Ground Truth 边界框[100, 50, 200, 300]

      • 解释:左上角 (x=100, y=50),右下角 (x=200, y=300)。
    • 宽度 × 高度(200−100)=100 px × (300−50)=250 px

    • 区域面积100 × 250 = 25,000 px²

  2. 短语a woman in a yellow dress

    • Ground Truth 边界框[250, 55, 350, 310]

      • 解释:左上角 (x=250, y=55),右下角 (x=350, y=310)。
    • 宽度 × 高度(350−250)=100 px × (310−55)=255 px

    • 区域面积100 × 255 = 25,500 px²

上述标注即为该图像中这两个名词短语在 Flickr30k-Entities 数据集中的“真实”矩形框。

3. 模型预测(TransVG)

以下预测 Bounding Box 来自 TransVG 模型在该图像上的一次推理结果(李龙等 2021)。

  1. 短语a man in a green shirt

    • Predicted 边界框[110, 60, 190, 290]

      • 解释:左上 (x=110, y=60),右下 (x=190, y=290)。
    • 宽度 × 高度(190−110)=80 px × (290−60)=230 px

    • 区域面积80 × 230 = 18,400 px²

  2. 短语a woman in a yellow dress

    • Predicted 边界框[260, 65, 340, 300]

      • 解释:左上 (x=260, y=65),右下 (x=340, y=300)。
    • 宽度 × 高度(340−260)=80 px × (300−65)=235 px

    • 区域面积80 × 235 = 18,800 px²

4. IoU 计算与定位正确性判定

短语定位常用 IoU (Intersection over Union)来衡量预测框与真实框的重叠程度。若 IoU ≥ 0.5,则认为该短语定位「命中」(正确)。以下逐一计算:

4.1. 短语 “a man in a green shirt”

  1. Ground Truth 盒 G=[100,50,200,300] → 面积 A<sub>G</sub>=25,000 px²

  2. Predicted 盒 P=[110,60,190,290] → 面积 A<sub>P</sub>=18,400 px²

4.1.1. 交集框(Intersection)
  • 左上角坐标: (max(100,110), max(50,60)) = (110, 60)

  • 右下角坐标: (min(200,190), min(300,290)) = (190, 290)

  • 交集宽度: 190 − 110 = 80 px

  • 交集高度: 290 − 60 = 230 px

  • 交集面积: 80 × 230 = 18,400 px²

4.1.2. 并集面积(Union)

A union = A G + A P − A intersection = 25,000 + 18,400 − 18,400 = 25,000 px 2 . A_{\text{union}} = A_G + A_P - A_{\text{intersection}} = 25{,}000 + 18{,}400 - 18{,}400 = 25{,}000 \ \text{px}^2. Aunion=AG+APAintersection=25,000+18,40018,400=25,000 px2.

4.1.3. IoU 值

I o U = A intersection A union = 18,400 25,000 = 0.736. \mathrm{IoU} = \frac{A_{\text{intersection}}}{A_{\text{union}}} = \frac{18{,}400}{25{,}000} = 0.736. IoU=AunionAintersection=25,00018,400=0.736.

因为 0.736 ≥ 0.5,故判定该短语预测 命中(正确)

4.2. 短语 “a woman in a yellow dress”

  1. Ground Truth 盒 G=[250,55,350,310] → 面积 A<sub>G</sub>=25,500 px²

  2. Predicted 盒 P=[260,65,340,300] → 面积 A<sub>P</sub>=18,800 px²

4.2.1. 交集框(Intersection)
  • 左上角坐标: (max(250,260), max(55,65)) = (260, 65)

  • 右下角坐标: (min(350,340), min(310,300)) = (340, 300)

  • 交集宽度: 340 − 260 = 80 px

  • 交集高度: 300 − 65 = 235 px

  • 交集面积: 80 × 235 = 18,800 px²

4.2.2. 并集面积(Union)

A union = A G + A P − A intersection = 25,500 + 18,800 − 18,800 = 25,500 px 2 . A_{\text{union}} = A_G + A_P - A_{\text{intersection}} = 25{,}500 + 18{,}800 - 18{,}800 = 25{,}500 \ \text{px}^2. Aunion=AG+APAintersection=25,500+18,80018,800=25,500 px2.

4.2.3. IoU 值

I o U = A intersection A union = 18,800 25,500 = 0.737. \mathrm{IoU} = \frac{A_{\text{intersection}}}{A_{\text{union}}} = \frac{18{,}800}{25{,}500} = 0.737. IoU=AunionAintersection=25,50018,800=0.737.

因为 0.737 ≥ 0.5,故判定该短语预测 命中(正确)

5. 短语定位准确率(Phrase Localization Accuracy)

  • 本例中共有 2 个短语:“a man in a green shirt” 与 “a woman in a yellow dress”。

  • 两者 IoU 均 ≥ 0.5,故 本例短语定位准确率 = 2/2 = 100%

在 TransVG 在整个 Flickr30k-Entities 测试集上的官方报告中,整体短语定位准确率可达 ≈ 84.2%(IoU ≥ 0.5);此处仅为单张示例,用以说明当前常见的评测方式与计算细节(Li et al., 2021)。

注释:

  1. Flickr30k-Entities 标注来源

    • Plummer, B., et al. “Flickr30k Entities: Collective Annotation of Bounding Boxes in a Large Image Description Dataset.” ICCV, 2015.

    • 官方下载页面中包含 JSON 格式的所有短语与对应的像素级 bounding box 坐标(即上文所用的真实标注)。

  2. 模型 & 预测结果来源

    • Li, Zejiang, et al. “TransVG: Learning Robust Visual Grounding with Transformer.” CVPR, 2021.

    • 文中公开了在 Flickr30k-Entities 数据集上的具体预测框,可对比原始标注并计算 IoU。

  3. 评测指标

    • 以 IoU ≥ 0.5 作为命中阈值;统计所有短语中命中的比例,即为短语定位准确率(Phrase Localization Accuracy)。

以上示例展示了一张 Flickr30k-Entities 中真实图像、真实标注及模型预测的对比情况。通过逐项计算 IoU,判断短语定位是否正确,体现了对单个案例进行定性定量评估的方式,该流程亦可扩展至批量数据以计算全局准确率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/907787.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java Spring Boot 自定义注解详解与实践

目录 一、自定义注解的场景与优势1.1 场景1.2 优势 二、创建自定义注解2.1 定义注解2.2 创建注解处理器 三、使用自定义注解3.1 在业务方法上使用注解3.2 配置类加载注解 四、总结 在 Spring Boot 中&#xff0c;自定义注解为我们提供了一种灵活且强大的方式来简化开发、增强代…

YOLOv5 环境配置指南

系统要求 Windows/Linux/MacOSNVIDIA GPU (推荐) 或 CPUPython 3.8CUDA 11.8 (如果使用 GPU) 安装步骤 1. 安装 Conda 如果还没有安装 Conda&#xff0c;请先从官网下载并安装 Miniconda。 2. 创建虚拟环境 # 创建名为 yolov5 的新环境&#xff0c;使用 Python 3.8 conda…

标准精读:2025 《可信数据空间 技术架构》【附全文阅读】

《可信数据空间 技术架构》规范了可信数据空间的技术架构,明确其作为国家数据基础设施的定位,以数字合约和使用控制技术为核心,涵盖功能架构(含服务平台与接入连接器的身份管理、目录管理、数字合约管理等功能)、业务流程(登记、发现、创建空间及数据流通利用)及安全要求…

02.上帝之心算法用GPU计算提速50倍

本文介绍了上帝之心的算法及其Python实现&#xff0c;使用Python语言的性能分析工具测算性能瓶颈&#xff0c;将算法最耗时的部分重构至CUDA C语言在纯GPU上运行&#xff0c;利用GPU核心更多并行更快的优势显著提高算法运算速度&#xff0c;实现了结果不变的情况下将耗时缩短五…

Elasticsearch的集群管理介绍

Elasticsearch 集群管理是确保分布式环境下系统稳定运行、高可用和高性能的关键。以下从集群架构、节点类型、故障转移到监控优化,全面解析 Elasticsearch 集群管理的核心要点: 一、集群架构与节点类型 1. 基本概念 集群(Cluster):由一个或多个节点组成,共同存储数据并…

高速串行接口

1.网口设计方案 上图中给出了两种网口设计方案&#xff0c;最上面是传统设计方式&#xff0c;下面是利用GT作为PHY层的设计&#xff0c;然后FPGA中设计协议层和MAC层。 2.SRIO SRIO的本地操作和远程操作 3.其他高速接口 srio rapid io aurora8b10b aurora64b66b pcie s…

第3节 Node.js 创建第一个应用

Node.js 非常强大&#xff0c;只需动手写几行代码就可以构建出整个HTTP服务器。事实上&#xff0c;我们的Web应用以及对应的Web服务器基本上是一样的。 在我们创建Node.js第一个"Hello, World!"应用前&#xff0c;让我们先了解下Node.js应用是由哪几部分组成的&…

ubuntu 安装上传的 ffmpeg_7.1.1.orig.tar.xz并使用

在 Ubuntu 上安装并编译上传的 ffmpeg_7.1.1.orig.tar.xz 源码包&#xff0c;请按照以下详细步骤操作&#xff1a; 步骤 1&#xff1a;安装编译依赖 # 更新软件包列表 sudo apt update# 安装编译工具和基础依赖 sudo apt install -y build-essential autoconf automake cmake …

【Netty系列】核心概念

目录 1. EventLoop 与线程模型 2. Channel&#xff08;通道&#xff09; 3. ChannelHandler 与 Pipeline 4. ByteBuf&#xff08;数据容器&#xff09; 5. Bootstrap 与 ServerBootstrap 6. Future 与 Promise 7. 其他核心概念 总结 Netty 是一个高性能、异步事件驱动的…

C# Costura.Fody 排除多个指定dll

按照网上的说在 FodyWeavers.xml 里修改 然后需要注意的是 指定多个排除项 不是加 | 是换行 一个换行 就排除一项 我测试的 <?xml version"1.0" encoding"utf-8"?> <Weavers xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance&quo…

C++基础算法————广度优先搜索(BFS)

一、引言 在计算机科学中,搜索算法是解决各种问题的关键工具之一。广度优先搜索(Breadth-First Search,简称BFS)作为其中一种重要的搜索算法,以其独特的搜索策略和广泛的应用场景,在众多领域发挥着重要作用。对于初学者来说,深入理解和掌握BFS算法是提升编程能力、解决…

关于Web安全:7. WebShell 管理与持久化后门

一、菜刀马 菜刀马&#xff08;ChinaZ WebShell&#xff09; 是一种与“中国菜刀&#xff08;ChinaZ&#xff09;”客户端配合使用的 WebShell 木马&#xff0c;广泛应用于 Web 渗透测试中&#xff0c;主要使用 PHP/ASP/JSP 等语言编写。 它的本质是一个一句话木马&#xff0…

【仿生系统】qwen的仿生机器人解决方案

收到完整需求后&#xff0c;我将从系统架构设计、算法实现路径、训练方法三个维度为您构建完整的仿生机器人解决方案。以下是分阶段实施方案&#xff1a; 一、核心系统架构设计&#xff08;模块化可进化架构&#xff09; 1. 多模态感知引擎 - 视觉子系统&#xff1a;YOLOv8SAM…

Tomcat- AJP协议文件读取/命令执行漏洞(幽灵猫复现)详细步骤

一、漏洞描述 Apache Tomcat是由Apache软件基金会属下Jakarta项目开发的Servlet容器.默认情况下,Apache Tomcat会开启AJP连接器,方便与其他Web服务器通过AJP协议进行交互.但Apache Tomcat在AJP协议的实现上存在漏洞,导致攻击者可以通过发送恶意的AJP请求,可以读取或者包含Web应…

IEEE P370:用于高达 50 GHz 互连的夹具设计和数据质量公制标准

大多数高频仪器&#xff0c;如矢量网络分析仪 &#xff08;VNA&#xff09; 和时域反射仪 &#xff08;TDR&#xff09;&#xff0c;都可以在同轴接口的末端进行非常好的测量。然而&#xff0c;复杂系统中使用的互连很少具有同轴接口。用于表征这些设备的夹具的设计和实施会对测…

OneForAll 使用手册

OneForAll 使用手册 一、概述 OneForAll 是一款功能强大的子域名收集工具&#xff0c;旨在帮助安全测试人员和网络管理员全面发现目标域名的所有子域名&#xff0c;为后续的安全评估和漏洞测试提供基础支持。它集成了多种子域名发现方法&#xff0c;包括搜索引擎查询、DNS 枚…

从前端工程化角度解析 Vite 打包策略:为何选择 Rollup 而非 esbuild。

文章目录 前言一、esbuild 与 Rollup 的技术特性对比&#xff08;一&#xff09;esbuild&#xff1a;极速开发利器&#xff0c;功能尚待完善&#xff08;二&#xff09;Rollup&#xff1a;专业打包工具&#xff0c;功能全面强大 二、Vite 打包策略的工程化考量因素&#xff08;…

Chrome 通过FTP,HTTP 调用 Everything 浏览和搜索本地文件系统

【提问1】 Chrome调用本地 everything.exe, everything 好像有本地 FTP 服务器&#xff1f; 【DeepSeek R1 回答】 是的&#xff0c;Everything 确实内置了 HTTP/FTP 服务器功能&#xff0c;这提供了一种相对安全的浏览器与本地应用交互的方式。以下是完整的实现方案&#x…

Java八股文智能体——Agent提示词(Prompt)

这个智能体能够为正在学习Java八股文的同学提供切实帮助&#xff1a;不仅可以帮你优化答案表述&#xff0c;还能直接解答八股文相关问题——它会以面试者的视角&#xff0c;给出贴合求职场景的专业回答。 将以下内容发送给任何一个LLM&#xff0c;他会按照你提示词的内容&…

Android 缓存应用冻结器(Cached Apps Freezer)

一、核心功能与原理 1. 功能概述 目标&#xff1a;通过冻结后台缓存应用的进程&#xff0c;减少其对 CPU、内存等系统资源的消耗&#xff0c;优化设备性能与续航。适用场景&#xff1a;针对行为不当的后台应用&#xff08;如后台偷偷运行代码、占用 CPU&#xff09;&#xff…