[2025CVPR]SEEN-DA:基于语义熵引导的领域感知注意力机制

 

目录

引言

研究背景

方法介绍

核心思想

语义熵(Semantic Entropy)

语义熵引导的注意力机制

领域感知注意力模块

实验设计

数据集

实现细节

结果与分析

对比实验结果

消融实验

代码实现

结论


引言

领域自适应目标检测(Domain Adaptive Object Detection, DAOD)旨在将源域上训练的目标检测器迁移到未标注的目标域。传统方法主要通过对齐视觉特征来提取领域不变知识,而近期基于视觉语言模型(VLM)的方法则利用文本编码器提供的语义信息来补充领域特定特征。然而,现有方法忽略了语义信息在指导视觉特征学习中的作用,导致冗余信息和领域特定特征的丢失。本文提出的SEEN-DA模型通过语义熵引导的领域感知注意力机制,有效解决了这些问题。

研究背景

  1. 领域自适应目标检测的挑战​:

    • 领域之间的显著差异导致检测性能下降。
    • 传统方法主要关注视觉特征的对齐,忽视了语义信息的指导作用。
  2. 现有方法的局限性​:

    • 传统方法使用语义无关的类别标签(如one-hot编码),忽略了类别名称中的语义信息。
    • 基于VLM的方法冻结视觉编码器,仅利用语义信息在检测头中进行调整,限制了视觉特征的判别能力。

方法介绍

核心思想

本文提出了一种基于语义熵引导的领域感知注意力机制(SEEN-DA),通过以下两个分支来优化视觉特征:

  1. 跨领域注意力分支​:提取领域不变特征,消除冗余信息。
  2. 领域内注意力分支​:补充领域特定的语义信息。

语义熵(Semantic Entropy)

语义熵用于量化视觉特征中与特定领域相关的语义信息量。其计算公式如下:

SE(T,f)=−c∑​p(tc​,f)log(p(tc​,f))

其中,p(tc​,f) 表示视觉特征 f 属于类别 c 的概率,T 是文本嵌入向量。

语义熵引导的注意力机制

通过语义熵作为注意力权重,调整视觉特征的权重:

SEAttention(T,f)=c∑​p(tc​,f)log(p(tc​,f))+logK

其中,K 是类别数量。

领域感知注意力模块

该模块包含两个并行分支:

  1. 跨领域注意力分支​:

    • 使用共享的卷积模块捕获任务相关知识。
    • 通过语义熵引导的注意力机制,抑制冗余信息。
  2. 领域内注意力分支​:

    • 使用独立的卷积模块和文本嵌入,补充领域特定的语义信息。

Figure 2.(a) Overview of the proposed SEEN-DA for DAOD, where the semantic entropy is utilized as attention in domain-aware attention module.(b) The architecture of domain-aware attention module, consisting of an inter-domain and an intra-domain attention branch.

实验设计

数据集

  1. 跨天气适应(Cityscapes→Foggy Cityscapes)​​:

    • 源域:Cityscapes(晴天)
    • 目标域:Foggy Cityscapes(雾天)
  2. 跨视场适应(KITTI→Cityscapes)​​:

    • 源域:KITTI(乡村和高速公路场景)
    • 目标域:Cityscapes(城市道路场景)
  3. 模拟到真实适应(SIM10K→Cityscapes)​​:

    • 源域:SIM10K(虚拟场景)
    • 目标域:Cityscapes(真实场景)
  4. 跨风格适应(Pascal VOC→Clipart)​​:

    • 源域:Pascal VOC(真实图像)
    • 目标域:Clipart(卡通图像)

实现细节

  • 骨干网络​:RegionCLIP(ResNet-50)
  • 检测器​:Faster-RCNN
  • 优化器​:SGD
  • 学习率​:使用warm-up策略
  • 评估指标​:平均精度(mAP)

结果与分析

对比实验结果

  1. 跨天气适应(Cityscapes→Foggy Cityscapes)​​:

    • SEEN-DA的mAP达到57.5%,超过现有最佳方法DA-Pro 1.6%。
  2. 跨视场适应(KITTI→Cityscapes)​​:

    • SEEN-DA的mAP为67.1%,提升了5.7%。
  3. 模拟到真实适应(SIM10K→Cityscapes)​​:

    • SEEN-DA的mAP为66.8%,优于现有最佳方法SOCCER 3.0%。
  4. 跨风格适应(Pascal VOC→Clipart)​​:

    • SEEN-DA的mAP为47.9%,在六个类别上表现优异。

Figure 3. Detection comparison on the Cross-Weather adaptation scenario. We visualize(a) the ground truth, the detection boxes of(b)SOTA DA-Pro[23] and(c) our methods SEEN-DA.

消融实验

  1. 领域感知注意力模块的有效性​:

    • 跨领域注意力分支提升2.3% mAP。
    • 领域内注意力分支进一步提升1.7% mAP。
  2. 投影层的影响​:

    • 将视觉嵌入投影到文本空间(V2T)效果最佳,mAP达到57.5%。

Figure 4. Ablation(%) on the number of attention modules on Cross-Weather adaptation.

代码实现

由于论文未提供具体代码,以下是基于PyTorch的伪代码框架:

class DomainAwareAttention(nn.Module):def __init__(self, backbone, text_encoder):super().__init__()self.backbone = backboneself.text_encoder = text_encoderself.inter_attention = InterDomainAttention()self.intra_attention = IntraDomainAttention()def forward(self, source_img, target_img):# 提取视觉特征source_feat = self.backbone(source_img)target_feat = self.backbone(target_img)# 跨领域注意力inter_attention = self.inter_attention(source_feat, target_feat)# 领域内注意力intra_attention = self.intra_attention(source_feat, target_feat)return inter_attention, intra_attention

结论

本文提出的SEEN-DA模型通过语义熵引导的领域感知注意力机制,有效解决了领域自适应目标检测中的语义信息利用问题。实验结果表明,该方法在多个基准数据集上显著提升了检测性能,具有广泛的应用前景。

论文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Li_SEEN-DA_SEmantic_ENtropy_guided_Domain-aware_Attention_for_Domain_Adaptive_Object_CVPR_2025_paper.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/87311.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/87311.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

你的RAG系统安全么?

生成式人工智能(GenAI)近年来发展迅速,大语言模型成为这一浪潮的核心力量。无论是商业还是开源模型,它们都具备强大的语言理解与生成能力,正广泛应用于内容创作、聊天机器人等场景,让企业更容易落地智能应用…

【2.3 漫画SpringSecurity - 守护应用安全的钢铁卫士】

🔐 漫画SpringSecurity - 守护应用安全的钢铁卫士 📚 目录 记忆口诀可视化图表形象比喻数字记忆实战案例记忆卡片总结诗句面试准备🎪 记忆口诀 🏗️ SpringSecurity核心 - “认证授权过滤链” 认证Authentication确身份,用户名密码验证真 授权Authorization控权限,…

ModbusRTU转Profinet网关在电子天平与PLC系统集成中的应用

ModbusRTU转Profinet网关在电子天平与PLC系统集成中的应用 工业自动化场景中,设备通信协议差异常成为系统集成的隐形壁垒。某精密制造企业近期遇到的奥豪斯电子天平与西门子PLC通讯难题,正是这一矛盾的典型缩影。奥豪斯天平采用ModbusRTU协议&#xff0…

js代码后续

这是一个非常棒的问题,也是每个学完一个系统课程的人都会问的问题。 答案是:不,你没有学完“所有”的 JavaScript 知识,但你已经出色地完成了成为一名合格 JavaScript 开发者的所有“必修课”。 让我用一个比喻来解释&#xff1…

百度文心大模型 4.5 系列全面开源 英特尔同步支持端侧部署

2025 年 6 月 30 日,百度如期兑现 2 月 14 日的预告,正式开源文心大模型 4.5(ERNIE 4.5)系列,涵盖 10 款不同参数规模的模型,包括 470 亿参数混合专家(MoE)模型、30 亿参数 MoE 模型…

Google AI Edge Function Calling: Android 端模型也能调用工具函数

大家好,我是拭心。 上篇文章我们了解了如何在 Android 手机上实现 RAG。这篇文章我们来聊聊端上大模型应用开发的核心概念:Function Calling(函数调用能力,简写为 FC)。 Function Calling 本质上是让大模型在回答过程…

模型调试实用技巧 (Pytorch Lightning)

【PL 基础】模型调试实用技巧 摘要1. 设置断点2. 快速运行所有模型代码一次3. 缩短 epoch 长度4. 运行健全性检查5. 打印 LightningModule 权重摘要6. 打印输入输出层尺寸 摘要 本文总结了6种实用的模型调试技巧:1)通过设置断点逐行检查代码;…

计算机网络(四)网际层IP

目录 一、概念 ​编辑 二、网际层和数据链路层的关系​ 三、IP地址的基础认识 四、IP地址的分类 五、无分类地址CIDR 六、子网掩码 七、为什么要分离网络号和主机号 八、公有IP和私有IP ​编辑 九、IP地址与路由控制 十、IP分片和重组 十一、IPv6 十二、IP协议…

Java--多态--向上转型--动态绑定机制--断点调试--向下转型

目录 1. 向上转型 2. 向下转型 3. java的动态绑定机制: 4. Object类讲解 5. 断点调试 1. 向上转型 提前:俩个对象(类)存在继承关系 本质:父类的引用指向了子类的对象 语法:父类 类型 引用名 new…

Python爬虫实战:研究urllib 库相关技术

1. 引言 1.1 研究背景与意义 互联网每天产生海量数据,如何高效获取和利用这些数据成为重要研究方向。网页爬虫作为自动获取网络信息的核心技术,在市场调研、舆情分析、学术研究等领域具有广泛应用。Python 凭借其简洁语法和丰富库支持,成为爬虫开发的首选语言。 1.2 相关…

【机器学习赋能的智能光子学器件系统研究与应用】

目前在Nature和Science杂志上发表的机器学习与光子学结合的研究主要集中在以下几个方面: 1.光子器件的逆向设计:通过机器学习,特别是深度学习,可以高效地进行光子器件的逆向设计,这在传统的多参数优化问题中尤为重要。…

Codeforces Round 1034 (Div. 3)

比赛链接如下:https://codeforces.com/contest/2123 A. Blackboard Game Initially, the integers from 00 to n−1 are written on a blackboard. In one round, Alice chooses an integer a on the blackboard and erases it;then Bob chooses an integer b on …

微电网系列之微电网的孤岛运行

个人主页:云纳星辰怀自在 座右铭:“所谓坚持,就是觉得还有希望!” 微电网的孤岛运行 微电网具有并网和孤岛两种运行模式,由于孤岛运行模式下,分布式电源为微电网内部负荷提供频率和电压支撑,由…

JsonCpp的核心类及核心函数使用汇总

文章目录 JsonCpp的核心类及核心函数使用汇总一、前言二、JsonCpp 核心类介绍三、Value 类函数解析1. 值获取函数(asxxx 系列 )2. 值类型判断函数(isxxx 系列 )3. 数组操作函数4. 对象操作函数5. 运算符重载6. 迭代器7. JSON 转化…

Qt写入excel

1.tableView导出到excel 点击导出函数按钮、发送sendMessage信号(信号名称,对象,数据) void HydroelectricPowerPluginImpl::exportTableViewSelectedRows(QTableView* tableView, QWidget* parent) {if (!tableView || !tableVie…

OSCP - Proving Grounds - DC - 1

主要知识点 drupal 7 RCEfind SUID提权 具体步骤 nmap起手,80端口比较有意思,安装了 Drupal 7 Starting Nmap 7.94SVN ( https://nmap.org ) at 2024-12-17 14:23 UTC Nmap scan report for 192.168.57.193 Host is up (0.00087s latency). Not shown: 65531 cl…

仿小红书交流社区(微服务架构)

文章目录 framework - 平台基础设施starter - jacksoncommonexceptionresponseutil starter - content 全局上下文distributed - id - generate - 分布式 IdSnowflake - 基于雪花算法生成 IdSegment - 基于分段式生成 Id OSS - 对象存储KV - 短文本存储笔记评论 user - 用户服务…

大模型开源技术解析 4.5 的系列开源技术解析:从模型矩阵到产业赋能的全栈突破

提示:本篇文章 1300 字,阅读时间:5分钟。 前言 6 月 30 日,百度正式开源文心大模型 4.5 系列,这一动作不仅兑现了 2 月发布会上的技术承诺,更以 10 款全维度模型矩阵刷新了国内开源模型的技术边界。从学术…

[6-02-01].第05节:配置文件 - YAML配置文件语法

SpringBoot学习大纲 一、YAML语法 1.1.概述: 1.YAML是一种数据序列化格式;2.它是以数据为中心3.容易阅读,容易与脚本语言交互,如下图所示: 1.2.基本语法 1.key: value:kv之间有空格2.使用缩进表示层级关系3.缩进时…

FPGA学习

一、module : 定义: 是构建数字系统的基本单元,用于封装电路的结构和行为。它可以表示从简单的逻辑门到复杂的处理器等任何硬件组件。 1. module 的基本定义 module 模块名 (端口列表);// 端口声明input [位宽] 输入端口1;output [位宽] 输出端口1;ino…