CVPR2024迁移学习《Unified Language-driven Zero-shot Domain Adaptation》

摘要

本文提出了一个名为 Unified Language-driven Zero-shot Domain Adaptation(ULDA)的新任务设置,旨在使单一模型能够适应多种目标领域,而无需明确的领域标识(domain-ID)知识。现有语言驱动的零样本领域适应任务存在限制,例如需要领域ID和领域特定模型,这限制了模型的灵活性和可扩展性。为了解决这些问题,作者提出了一个包含三个组件的新框架:层次上下文对齐(Hierarchical Context Alignment, HCA)、领域一致表示学习(Domain Consistent Representation Learning, DCRL)和文本驱动校正器(Text-Driven Rectifier, TDR)。这些组件协同工作,分别在多个视觉层面上对齐模拟特征与目标文本、保留不同区域表示之间的语义相关性以及校正模拟特征与真实目标视觉特征之间的偏差。大量实证评估表明,该框架在两种设置中均取得了具有竞争力的性能,甚至超越了需要领域ID的模型,展现了其优越性和泛化能力。该方法不仅有效,而且在推理时不会引入额外的计算成本,具有实用性和效率。

Introduction

拟解决的问题:

  • 领域适应中的灵活性和可扩展性问题:现有方法需要领域ID来选择领域特定的模型,这限制了模型在实际应用中的灵活性和可扩展性。例如,在“雨中驾驶”和“雪中驾驶”两种任务领域中,需要分别训练两个独立的模型来适应这些领域。
  • 缺乏目标领域数据时的模型适应性问题:在实际应用中,由于隐私问题或数据稀缺性,可能无法直接访问目标领域的图像数据。因此,需要开发一种能够在没有目标领域图像的情况下,仅通过文本描述来适应目标领域的模型。

如下图所示。我们提出的统一语言驱动的领域适应(ULDA)任务侧重于现实世界的实际场景。在训练阶段,ULDA不允许访问目标域的图像,只提供源域图像和文本描述。在测试期间,ULDA需要一个单一的模型来适应不同的目标域,而不是像以前的方法那样使用特定于域的头。

创新之处

提出了一种新的任务设置ULDA:与现有方法不同,ULDA要求单个模型能够适应多种目标领域,而无需在测试时提供领域ID,这更符合实际应用场景。

设计了一个包含三个关键组件的新框架

  • 层次上下文对齐(HCA):通过在场景级别、区域级别和像素级别对齐特征与文本嵌入,解决了全局对齐可能导致的语义损失问题。
  • 领域一致表示学习(DCRL):通过保留不同类别在不同领域中的语义相关性,确保了模型在不同领域之间的结构一致性。
  • 文本驱动校正器(TDR):通过利用文本嵌入来校正模拟特征,减少了模拟特征与真实目标特征之间的偏差,提高了模型的泛化能力。

在推理阶段不引入额外计算成本:该方法在保持有效性的同时,确保了模型在实际应用中的实用性和效率。

Preliminary

PØDA 是一种用于计算机视觉中零样本领域适应(Zero-shot Domain Adaptation, ZSDA)的范式。它通过仅利用目标领域的自然语言描述,而无需目标领域的图像数据来训练模型,从而实现从源领域到目标领域的适应。PØDA 的核心思想是利用预训练的 CLIP 编码器来优化源特征的转换,并将其与目标领域的文本嵌入对齐。

PØDA 的训练过程分为两个阶段:

第一阶段:模拟目标特征(Simulating Target Features)

  • Prompt-driven Instance Normalization (PIN):PØDA 引入了 PIN 操作,通过可学习的变量 μ 和 σ,这些变量由目标领域的文本提示引导,来模拟目标领域的知识。具体公式如下:

其中,fs​ 是源域特征,μ(fs​) 和 σ(fs​) 分别是源特征的均值和标准差。

对齐目标文本嵌入:为了确保从源域到目标域的适当转换,需要通过以下损失函数促进 fs→tPIN​ 与 CLIP 文本嵌入 TrgEmb 之间的相似性:

  其中,\overline{f}_{s\rightarrow t}是通过 Prompt-driven Instance Normalization (PIN) 转换后的全局特征,TrgEmb 是目标文本嵌入。

第二阶段:微调分割头(Fine-tuning the Segmentation Head)

在第一阶段获得模拟特征后,PØDA 对预训练的分割头进行微调,使模型能够更好地适应目标领域的下游任务。这一阶段的训练由分割预测与真实掩码之间的交叉熵损失监督。

方法

提出了一种名为 Unified Language-driven Zero-shot Domain Adaptation (ULDA) 的新方法,旨在使单一模型能够适应多种目标领域,而无需明确的领域标识(domain-ID)。该方法的核心在于通过语言驱动的方式,仅利用源域数据和目标域的文本描述,来实现对目标域的有效适应。ULDA框架包含三个关键组件:层次上下文对齐(HCA)领域一致表示学习(DCRL)文本驱动校正器(TDR)。这些组件协同工作,分别从特征对齐、语义一致性保持和特征校正三个方面提升模型的泛化能力和适应性。

1. 层次上下文对齐(Hierarchical Context Alignment, HCA)

Vanilla scene-text 对齐会导致语义丢失。PØDA 通过等式直接将池化特征 fs→t 与文本嵌入 TrgEmb 对齐,在场景级别实现了视觉语言对齐。然而,模型仅通过调整全局上下文以适应目标域来实现与目标域的良好对齐具有挑战性,因为在将场景中不同对象的特征对齐到单个共享目标域嵌入时这可能会导致潜在的语义损失,从而导致偏离它们各自的真实语义分布。为了缓解这个问题,我们提出了一种分层上下文对齐 (HCA) 策略,该策略可以在多个级别上对特征\overline{f}_{s\rightarrow t}进行复杂的对齐,包括 1) 整个场景,2) 场景中的区域,以及 3) 场景中的像素

1.1 场景级别对齐

HCA 的第一个层次是场景级别对齐,目标是将全局特征与目标文本嵌入对齐。具体来说,通过以下公式实现:

 其中,\overline{f}_{s\rightarrow t}是通过 Prompt-driven Instance Normalization (PIN) 转换后的全局特征,TrgEmb 是目标文本嵌入。该损失函数通过最大化全局特征与文本嵌入的相似性,使模型能够适应目标域的整体语义。

1.2 区域级别对齐

区域级别对齐的目标是保留不同类别在场景中的独特语义特征。具体步骤如下:

1.利用类别名称和目标域描述生成细粒度的文本嵌入T\in \mathbb{R}^{n\times d},其中 n 是类别数量,d 是嵌入维度。

2.将图像特征图f_{s\rightarrow t}\in \mathbb{R}^{HW\times d}与类别标签y\in \mathbb{R}^{HW}转换为二值掩码y^{*}\in \mathbb{R}^{n\times HW}

3.通过掩码平均池化(Masked Average Pooling, MAP)计算每个类别的区域原型C\in \mathbb{R}^{n\times HW}

    4.计算区域原型 C 与文本嵌入 T 之间的相似性矩阵S\in \mathbb{R}^{n\times n}

    5.通过以下公式优化区域对齐损失:

     1.3 像素级别对齐

    像素级别对齐进一步细化特征与文本嵌入之间的对齐,目标是使每个像素的特征更接近目标域的语义。具体步骤如下:

    1.计算每个像素的类别概率P\in \mathbb{R}^{HW\times d}

    2.使用像素级标签y\in \mathbb{R}^{HW}计算交叉熵损失:

    1.4 总体损失

    HCA 的总体损失函数为:

     2. 领域一致表示学习(Domain Consistent Representation Learning, DCRL)

    DCRL 的目标是确保不同领域之间的语义相关性保持一致。例如,“雪中的公共汽车”、“雨中的公共汽车”和“夜间的公共汽车”的文本嵌入可能与“雪”、“雨”和“夜”背景下的视觉对应物相比可能具有不同的相关性。具体来说,对于 m 个目标领域中的 n 个类别,分别计算每个领域的类别原型C\in \mathbb{R}^{n\times d}和文本嵌入T\in \mathbb{R}^{n\times d},并将它们组合成扩展的原型矩阵\widetilde{C}\in \mathbb{R}^{mn\times d}\widetilde{T}\in \mathbb{R}^{mn\times d}。然后,通过以下公式优化领域一致性损失:

     该损失函数通过最小化不同领域中类别原型与文本嵌入之间的相关性差异,确保模型在不同领域之间保持一致的语义表示。

    3. 文本驱动校正器(Text-Driven Rectifier, TDR)

    在第二阶段微调时,模型利用模拟的目标域特征来微调分割头,使模型能够有效地适应目标域。然而,模拟特征与实际目标域特征之间可能存在差异。考虑这些差异至关重要,因为直接使用模拟特征可能会导致分割头与真实目标分布的偏差,从而在调整后产生更差的分割性能。

    因此,我们建议通过利用 CLIP 获得的文本嵌入来解决这个问题,这些嵌入实际上类似于真实目标域中的分布。通过采用这些文本嵌入作为先验,我们可以纠正模拟过程,从而鼓励模拟特征与目标特征更紧密地对齐。纠正有利于适应。具体来说,TDR 的目标是校正模拟特征与真实目标特征之间的偏差。具体来说,在模型的第二阶段(微调阶段),通过以下公式对模拟特征进行校正:

    其中,\widetilde{\mu}\widetilde{\sigma }是通过文本嵌入经过线性层得到的目标特征的均值和标准差,β 是一个可学习的校正因子,用于控制校正的程度。通过这种方式,TDR 使模拟特征更接近真实目标特征,从而提高模型的泛化能力。 

    4.总结

    训练过程:

    1. Stage-1:通过 PIN 生成模拟特征,并使用 HCA 和 DCRL 进行对齐。
    2. Stage-2:通过 TDR 校正模拟特征,并微调分割头以优化分割任务的性能。

    推理过程: 对目标域图像进行特征提取、模拟特征生成、文本驱动校正和分割预测。

    结论

    • ULDA框架的有效性:通过在多种目标领域上的实验验证,ULDA框架在零样本领域适应任务中取得了具有竞争力的性能,甚至在某些情况下超越了需要领域ID的方法,证明了其在实际应用中的可行性和优越性。

    • 方法的实用性:ULDA方法在推理阶段不引入额外的计算成本,保持了模型的实用性和效率,使其更适合于实际的领域适应任务。

    • 对领域适应任务的推动:ULDA的提出为领域适应任务提供了一种新的思路,即通过文本描述来适应目标领域,而无需直接访问目标领域的图像数据,这为解决实际应用中的数据稀缺问题提供了一种有效的解决方案。

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
    如若转载,请注明出处:http://www.pswp.cn/bicheng/85184.shtml
    繁体地址,请注明出处:http://hk.pswp.cn/bicheng/85184.shtml

    如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

    相关文章

    AI安全风险监测平台:全周期防护体系构建

    AI安全风险监测平台通过构建全生命周期防护体系,实现对人工智能系统研发、部署、运行、迭代各阶段的安全风险动态监测。该平台融合算法审计、行为分析、合规验证等核心能力,建立覆盖模型安全、数据安全、应用安全的立体防御网络,为智能系统提…

    数据集-目标检测系列- 杯子 数据集 bottle >> DataBall

    数据集-目标检测系列- 杯子 数据集 bottle >> DataBall 贵在坚持! * 相关项目 1)数据集可视化项目:gitcode: https://gitcode.com/DataBall/DataBall-detections-100s/overview 2)数据集训练、推理相关…

    视频点播web端AI智能大纲(自动生成视频内容大纲)的代码与演示

    通过AI技术将视频课程自动生成结构化大纲和摘要,支持PPT教学视频、企业内训等场景应用。核心功能包括:自动匹配视频知识点生成文本大纲、快速内容定位、降低课程制作成本。系统采用模块化架构,包含Vue2.7前端组件、JS逻辑库和演示项目&#x…

    Linux: errno: EINPROGRESS-115

    在connect接口的使用说明里,有这个错误:EINPROGRESS。 The socket is nonblocking and the connection cannot be completed immediately. It is possible to select(2) or poll(2) for completion by selecting the socket for writing. After select(2…

    Node.js特训专栏-基础篇:3. Node.js内置模块的使用

    🔥 欢迎来到 Node.js 实战专栏!在这里,每一行代码都是解锁高性能应用的钥匙,让我们一起开启 Node.js 的奇妙开发之旅! Node.js 特训专栏主页 Node.js内置模块:强大功能的基石 在Node.js的世界里&#xff…

    基于MATLAB实现的Capon、MUSIC、ESPRIT和PM算法进行DOA

    使用Capon、MUSIC、ESPRIT和PM多种算法进行doa估计,通过谱峰搜索函数估计到达角,并使用蒙特卡洛方法估计各算法的RMSE。(可能计算时间较长,如需节省时间可以减小蒙特卡洛次数) PM.m , 574 RMSE.m , 274 TLS_ESPRIT.m …

    某网站极验4滑块验证码逆向分析

    文章目录 1. 写在前面2. 接口分析3. w逆向分析4. JSON参数分析5. 距离识别6. RSA纯算还原7. AES纯算还原【🏠作者主页】:吴秋霖 【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于…

    深入理解 C++ inline:三大语法特性 + 七大高频考点全解析

    一、什么是内联函数 编译器尝试将 inline 函数的代码直接插入调用处(类似宏展开),避免函数调用的压栈、跳转、返回等额外开销。适用于短小频繁调用的函数:如简单的 getter/setter、数学运算等。inline 只是 建议,编译…

    Flink 与 Hive 深度集成

    引言 在大数据生态中,Flink 的流批一体化处理能力与 Hive 的数据存储分析优势结合,通过 Flink Connector for Hive 实现无缝对接,能显著提升数据处理效率。本文将系统解析 Flink 与 Hive 集成的核心操作,涵盖配置、读写、优化全流…

    Axios面试常见问题详解

    axios面试常问题目及其详解 以下是前端面试中关于 Axios 的常见问题及详细解答,涵盖核心原理、实战场景和进阶优化,帮助你在面试中清晰展示技术深度。 1. Axios 是什么?它与原生 Fetch API 有何区别? 回答要点: Axi…

    14.2 《3小时从零搭建企业级LLaMA3语言助手:GitHub配置+私有化模型集成全实战》

    3小时从零搭建企业级LLaMA3语言助手:GitHub配置私有化模型集成全实战 关键词:GitHub 仓库配置, 项目初始化, 目录结构设计, 私有化模型集成, 开发环境标准化 Fork 并配置 GitHub 项目仓库 本节将手把手完成 LanguageMentor 项目的仓库克隆、环境配置和…

    生物制药自动化升级:Modbus TCP与Ethernet/IP协议转换实践

    为优化生物制药生产流程,我司计划将现有的Allen-Bradley PLC控制系统与新型生物反应器进行集成。由于两者采用不同的通信协议(AB PLC使用Modbus TCP,而生物反应器支持Ethernet/IP),直接通信存在障碍。为此通过稳联技术…

    商业云手机核心优缺点分析

    商业云手机核心优缺点分析,综合技术性能、成本效率及场景适配性等多维度对比: 核心优势‌ 成本革命‌ 硬件零投入‌:免除实体手机采购(旗舰机均价6000元),企业百台规模可省60万 CAPEX。 弹性计费‌&…

    Windows 远程桌面添加 SSL 证书指南

    Windows 远程桌面添加 SSL 证书指南 🧾 准备工作🔐 第一步:使用 Certbot 申请 SSL 证书📦 第二步:生成 PFX 格式证书文件📁 第三步:导入证书到 Windows 证书管理器🔒 第四步&#xf…

    项目实训技术实现——核心关键:基于二叉分割的布局生成算法

    核心关键:基于二叉分割的布局生成算法 上一篇针对llava这种为每个元素分别预测每个元素的框的方法进行了分析,已经证实这条路难以行得通。因此,我们考虑直接按照板块划分整个背景布局,然后在板块内,进一步划分出我们需…

    uniapp 配置devserver代理

    在uniapp项目中配置devserver代理,需要先检查用的vue版本。 vue3不能在manifest.json配置代理。 1.先检查项目用的vue版本 找到manifest.json文件查看vue的版本。 2.vue2在manifest.json内配置 "h5" : { "devServer": { …

    移动端 WebView 页面性能调试实战:WebDebugX等工具协同与优化

    随着移动互联网的发展,越来越多的应用开始使用 WebView 加载网页内容。然而,这种方式虽然能快速实现跨平台开发,但也带来了很多性能瓶颈,尤其是在移动端设备上。WebView 本身的性能限制、页面加载慢、JS 执行阻塞等问题时常成为开…

    临时文件夹大量0字节xml问题排查

    某天偶然打开我的c:\users\我的用户名\AppData\Local\Temp 目录,发现有很多0字节的.xml文件,你删除以后一会还会大量产生,如下图: 下载了ProcessMonitor,记录了一会日志,查找*.xml发现是资源管理器在创建这…

    突破微小目标检测瓶颈:智能无人机在蓝莓产量估算中的解决方案

    【导读】 本文提出了一种使用搭载计算机视觉的智能无人机估算蓝莓产量的方法。系统利用两个YOLO模型:一个检测灌木丛,另一个检测浆果。它们协同工作,智能控制无人机位置和角度,安全获取灌木近景图,实现精准的浆果计数…

    API 管理系统实践指南:监控、安全、性能全覆盖

    在数字化转型和云原生架构全面普及的当下,API(应用编程接口) 已成为现代技术和业务架构的核心基石。从移动应用到智能硬件,从企业后端系统到 AI 模型调用,几乎所有系统都在通过 API 实现互联互通。API 这个词听起来有点…