【论文解读】Deformable DETR | Deformable Transformers for End-to-End Object Detection

图片
论文地址:https://arxiv.org/pdf/2010.04159
代码地址:https://github.com/fundamentalvision/Deformable-DETR

摘要

DETR最近被提出,旨在消除物体检测中许多手工设计的组件的需求,同时展示出良好的性能。然而,由于Transformer注意力模块在处理图像特征图方面的限制,它存在收敛速度慢特征空间分辨率有限的问题。为了缓解这些问题,本研究提出了Deformable DETR,其注意力模块仅关注参考点周围的一小部分关键采样点。Deformable DETR能够以比DETR少10倍的训练周期实现更好的性能(尤其是在小物体上)。在COCO基准上的大量实验证明了本研究方法的有效性。

图片

引言

现代目标检测器通常依赖于手工设计的组件,如anchor生成基于规则的训练目标分配非极大值抑制(NMS)后处理,这使得它们并非完全端到端。为了解决这个问题,DETR被提出,它通过结合卷积神经网络(CNN)Transformer编码器-解码器,构建了第一个完全端到端的目标检测器,并在性能上具有竞争力。DETR利用Transformer强大的关系建模能力来替代手工设计的规则,并在精心设计的训练信号下工作。

尽管DETR的设计和性能引人关注,但它也存在一些问题。首先,DETR需要比现有目标检测器更长的训练周期才能收敛。例如,在COCO基准测试中,DETR需要500个epoch才能收敛,这比Faster R-CNN慢10到20倍。其次,DETR在检测小目标时的性能相对较低。现代目标检测器通常利用多尺度特征,在高分辨率特征图上检测小目标。然而,高分辨率特征图会导致DETR无法接受的复杂度。这些问题主要归因于Transformer组件在处理图像特征图方面的不足。在初始化时,注意力模块几乎对特征图中的所有像素赋予均匀的注意力权重,因此需要长时间的训练才能使注意力权重学习到聚焦于稀疏且有意义的位置。此外,Transformer编码器中注意力权重的计算相对于像素数量是二次方的,因此处理高分辨率特征图的计算和内存复杂度非常高。

为了解决上述问题,本研究提出了Deformable DETR。该方法结合了可变形卷积的稀疏空间采样Transformer的关系建模能力。本研究提出了可变形注意力模块,该模块只关注参考点周围的一小部分关键采样点,作为从所有特征图像素中筛选出显著关键元素的一种预处理方式。该模块可以自然地扩展到聚合多尺度特征,而无需FPN的帮助。在Deformable DETR中,本研究利用多尺度可变形注意力模块来替代Transformer注意力模块,以处理特征图。

Deformable DETR的快速收敛以及计算和内存效率为本研究探索各种端到端目标检测器变体提供了可能。本研究探索了一种简单有效的迭代边界框细化机制,以提高检测性能。此外,本研究还尝试了一种两阶段Deformable DETR,其中区域提议也由Deformable DETR的变体生成,并进一步馈送到解码器以进行迭代边界框细化。

论文创新点

本研究提出了一种名为Deformable DETR的新型端到端目标检测器,旨在解决DETR在收敛速度慢和特征空间分辨率受限方面的问题。DETR在目标检测领域取得了显著进展,但其Transformer注意力模块在处理图像特征图时存在局限性,导致训练缓慢且对小目标检测性能不佳。为了克服这些限制,本研究做出了以下创新:

  1. 💡 可变形注意力模块(Deformable Attention Module): 💡

    • 本研究设计了一种新的注意力机制,即Deformable Attention Module。
    • 与传统Transformer的注意力机制不同,该模块仅关注参考点周围的一小部分关键采样点,从而显著减少了计算量和内存需求。
    • 这种稀疏空间采样的方式借鉴了可变形卷积的思想,使得模型能够更有效地处理图像特征图,加速收敛过程,并提升对小目标的检测能力
  2. 🔍 多尺度可变形注意力模块(Multi-scale Deformable Attention Module): 🔍

    • 为了更好地适应不同尺度上的目标检测,本研究将Deformable Attention Module扩展到多尺度特征图。
    • 该模块能够自然地聚合来自不同尺度特征图的信息,无需借助传统的特征金字塔网络(FPN)。
    • 通过在多个尺度上进行可变形采样,模型能够更全面地捕捉目标的上下文信息,进一步提升检测性能
  3. ⚙️ 可变形Transformer编码器(Deformable Transformer Encoder): ⚙️

    • 本研究将DETR中的Transformer注意力模块替换为本研究提出的多尺度可变形注意力模块。
    • 编码器的输入和输出均为多尺度特征图,且分辨率相同。
    • 这种设计使得编码器能够有效地处理多尺度特征,并提取出更具代表性的特征表示
  4. 📈 迭代边界框优化(Iterative Bounding Box Refinement): 📈

    • 本研究探索了一种简单有效的迭代边界框优化机制,以进一步提高检测性能。
    • 通过在解码器的每一层逐步优化边界框的预测结果,模型能够更准确地定位目标,并获得更精确的检测结果
  5. 🚀 双阶段Deformable DETR(Two-Stage Deformable DETR): 🚀

    • 为了进一步提升性能,本研究尝试了一种双阶段的Deformable DETR。
    • 第一阶段生成区域提议,第二阶段利用解码器对提议进行迭代优化。
    • 这种双阶段方法借鉴了传统目标检测器的思想,并将其与Deformable DETR相结合,从而进一步提高了检测精度

论文实验

图片
图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/83218.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从0到1上手Trae:开启AI编程新时代

摘要:字节跳动 2025 年 1 月 19 日发布的 Trae 是一款 AI 原生集成开发环境工具,3 月 3 日国内版推出。它具备 AI 问答、代码自动补全、基于 Agent 编程等功能,能自动化开发任务,实现端到端开发。核心功能包括智能代码生成与补全、…

Vue项目打包常见问题

vue的前端项目中,有时候需要多个不同项目合并到一起。有时候有一些特殊要求。 1、打包后不允许生成带 .map的文件 正常使用npm run build命令打包生成的dist文件中,js文件总会生成一个同名的.map文件,原因如下: ‌总结‌&#xf…

Linux 学习-模拟实现【简易版bash】

1、bash本质 在模拟实现前,先得了解 bash 的本质 bash 也是一个进程,并且是不断运行中的进程 证明:常显示的命令输入提示符就是 bash 不断打印输出的结果 输入指令后,bash 会创建子进程,并进行程序替换 证明&#x…

GitHub 趋势日报 (2025年05月31日)

📊 由 TrendForge 系统生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日获星趋势图 今日获星趋势图 1153 prompt-eng-interactive-tutorial 509 BillionMail 435 ai-agents-for-begin…

“人单酬“理念:财税行业的自我驱动革命

引言:当薪酬不再是"固定数字",而是"成长标尺" "为什么有人拼命工作却收入停滞?为什么企业总在人才流失中挣扎?"这些问题背后,往往隐藏着传统薪酬体系的僵化。而"人单酬"&…

AI大模型赋能,aPaaS+iPaaS构建新一代数智化应用|爱分析报告

01 aPaaS和iPaaS成为企业用户关注重点 PaaS市场定义 根据Gartner的定义,PaaS(Platform as a Service)平台是应用基础架构(中间件)服务的广泛集合, 包含应用平台、集成、业务流程管理、数据服务和AI应用等…

WPS快速排版

论文包括(按顺序):封面(含题目)、摘 要、关键词、Abstract(英文摘要)、Keywords、目录、正文、参考文献、在读期间发表的学术论文及研究成果,致 谢 题目(黑小一加粗&…

python第39天打卡

1.灰度图像 作为图像数据,相较于结构化数据(表格数据)他的特点在于他每个样本的的形状并不是(特征数,),而是(宽,高,通道数) # 先继续之前的代码 import torch import torch.nn as nn import t…

win11小组件功能缺失的恢复方法

问题说明:重置了win11系统,结果小组件功能找不到了,最后用以下办法解决。 1. 以管理员身份打开 PowerShell 或 CMD。 2. 运行以下命令: winget install 9MSSGKG348SP 注:如果报错,可尝试先卸载再安装…

Kali Linux从入门到实战:系统详解与工具指南

一、Kali Linux简介 Kali Linux是一款基于Debian的Linux发行版,专为渗透测试和网络安全审计设计,由Offensive Security团队维护。其前身是BackTrack,目前集成了超过600款安全工具,覆盖渗透测试全流程,是网络安全领域…

C语言 — 文件

目录 1.流1.1 流的概念1.2 常见的的流 2.文件的打开和关闭2.1 fopen函数2.2 fclose函数2.3 文件的打开和关闭 3.文件的输入输出函数3.1 fputc函数3.2 fgetc函数3.3 feof函数和ferror函数3.4 fputs函数3.5 fgets函数3.6 fwrite函数3.7 fread函数3.8 fprintf函数3.9 fscanf函数 4…

Pull Request Integration 拉取请求集成

今天我想要把我创建的项目,通过修改yaml里面的内容,让我在main分支下的其他分支拉取请求的时候自动化测试拉取的内容,以及将测试结果上传到控制台云端。 首先我通过修改yaml文件里面的内容 name: Build and Teston:push:branches:- mainjobs:…

NodeJS全栈开发面试题讲解——P3数据库(MySQL / MongoDB / Redis)

3.1 如何用 Node.js 连接 MySQL?你用过哪些 ORM? 面试官您好,我先介绍如何用 Node.js 连接 MySQL,然后补充我常用的 ORM 工具。 🔌 原生连接 MySQL 使用 mysql2 模块: npm install mysql2 const mysql …

Redis最佳实践——性能优化技巧之数据结构选择

Redis在电商应用中的数据结构选择与性能优化技巧 一、电商核心场景与数据结构选型矩阵 应用场景推荐数据结构内存占用读写复杂度典型操作商品详情缓存Hash低O(1)HGETALL, HMSET购物车管理Hash中O(1)HINCRBY, HDEL用户会话管理Hash低O(1)HSETEX, HGET商品分类目录Sorted Set高O…

题单:最大公约数(辗转相除法)

题目描述 所谓 “最大公约数(GCD)” ,是指所有公约数中最大的那个,例如 12 和 1818 的公约数有 1,2,3,6 ,所以 12 和 18 的最大公约数为 6 。 辗转相除法,又名欧几里德算法(Euclidean Algorit…

hadoop完整安装教程(附带jdk1.8+vim+ssh安装)

本篇带领大家在uabntu20虚拟机上安装hadoop,其中还包括jdk1.8、ssh、vim的安装教程,(可能是)史上最全的安装教程!!!若有疑问可以在评论区或者私信作者。建议在虚拟机上观看此博客,便…

Flutter、React Native、Unity 下的 iOS 性能与调试实践:兼容性挑战与应对策略(含 KeyMob 工具经验)

移动端跨平台开发逐渐成为常态,Flutter、React Native、Unity、Hybrid App 等框架在各类 iOS 项目中频繁出现。但随之而来的,是一系列在 iOS 设备上调试难、性能数据采集难、日志整合难的问题。 今天这篇文章,我从实际项目出发,聊…

PyCharm接入DeepSeek,实现高效AI编程

介绍本土AI工具DeepSeek如何结合PyCharm同样实现该功能。 一 DeepSeek API申请 首先进入DeepSeek官网:DeepSeek 官网 接着点击右上角的 “API 开放平台“ 然后点击API keys 创建好的API key,记得复制保存好 二 pycharm 接入deepseek 首先打开PyCh…

Cinnamon开始菜单(1):获取应用数据

看了半天:/usr/share/cinnamon/applets/menucinnamon.org,终于挖到了精髓。 Cinnamon.AppSystem.get_default() 获取系统应用数据 get_tree() 获取树机构 get_root_directory() 获取根目录 iter() 遍历 get_name() 获取名称 get_desktop_file_id()…

git reset --hard HEAD~1与git reset --hard origin/xxx

git reset --hard HEAD~1与git reset --hard origin/xxx git reset --hard origin/xxx有时候会太长,手工输入略微繁琐,可以考虑: git reset --hard HEAD~1 替代。 或者使用这种方式 git reset撤销当前分支所有修改,恢复到最近一…