论文阅读：BLIPv1 2022.2

文章目录

- 一、研究背景与问题
- - 现有方法的局限性
  - 研究目标
- 二、核心方法与创新点
- - 多模态编码器 - 解码器混合架构（MED）
  - 标题生成与过滤（CapFilt）数据自举方法
- 三、实验与结果
- - 数据集与训练配置
  - 关键实验发现
  - 与 state-of-the-art 方法的对比
- 四、结论与未来方向
- - 主要贡献
  - 未来方向
- 五、资源与代码

论文题目：BLIP: Bootstrapping Language-Image Pre-training for
Unified Vision-Language Understanding and Generation
论文链接：https://arxiv.org/pdf/2201.12086

一、研究背景与问题

本文主要针对现有多模态的来个两个缺点展开。

现有方法的局限性

模型层面：大多数视觉 - 语言预训练（VLP）模型要么基于编码器（如 CLIP），适合理解任务但难以直接用于文本生成；要么基于编码器 - 解码器架构，在图像 - 文本检索等理解任务上表现不佳。
数据层面：现有方法依赖从网络收集的图像 - 文本对，这些数据含有大量噪声，影响模型学习视觉 - 语言对齐的效率。

研究目标

提出一个能同时处理理解与生成任务的统一 VLP 框架，并有效利用噪声网络数据。

二、核心方法与创新点

多模态编码器 - 解码器混合架构（MED）

Multimodal mixture of Encoder-Decoder

三种功能模式：
- 单模态编码器(unimodal encoder)：分别编码图像和文本，通过图像 - 文本对比损失（ITC）对齐特征空间。
- 基于图像的文本编码器（image-grounded text encoder）：插入交叉注意力层建模视觉 - 语言交互，通过图像 - 文本匹配损失（ITM）区分正负样本。
- 基于图像的文本解码器(image-grounded text decoder)：将双向自注意力替换为因果自注意力，通过语言建模损失（LM）生成图像描述。

该模型与三个视觉语言目标共同进行预训练，即图像-文本对比学习（image-text contrastive learning）, 图像-文本匹配（image-text learning）, 图像-条件语言建模（image-conditional language modeling）。

参数共享策略：文本编码器与解码器共享嵌入层、交叉注意力层和前馈网络，仅自注意力层独立，提升训练效率。

三个任务相关的算法模型框架图：
在这里插入图片描述

标题生成与过滤（CapFilt）数据自举方法

一种新的数据集 bootstrapping 的方法。可以用于从噪声图像-文本对中学习。将预训练的 MED 微调为两个模块：一个是给定网络图像产生合成标题的 captioner, 另一个是去除原始网络文本和合成文本中噪声标题的 Filter.

流程：
- 标题生成器（Captioner）：基于 MED 解码器，为网络图像生成合成标题。
- 过滤器（Filter）：基于 MED 编码器，移除原始网络文本和合成标题中的噪声样本。
优势：通过自举提升数据质量，生成更多样化的标题，增强模型对视觉 - 语言对齐的学习。

数据清洗框架图：
在这里插入图片描述

三、实验与结果

数据集与训练配置

预训练数据：包含 COCO、Visual Genome 等人工标注数据集，以及 Conceptual Captions、LAION 等网络数据集，总计 14M 至 129M 图像。
模型配置：基于 ViT-B/16 和 ViT-L/16 视觉编码器，文本编码器基于 BERT。

关键实验发现

CapFilt 的有效性：同时使用标题生成器和过滤器可显著提升下游任务性能。例如，在 COCO 图像 - 文本检索中，平均召回率 @1 提升 2.7%，图像标题生成的 CIDEr 分数提升 2.8%。
合成标题的多样性：采用核采样（nucleus sampling）生成的多样化标题比波束搜索更有效，尽管噪声率更高，但引入了更多新信息。
参数共享的影响：文本编码器与解码器共享非自注意力层可优化性能，而标题生成器与过滤器共享参数会因确认偏差降低效果。

与 state-of-the-art 方法的对比

图像 - 文本检索：在 COCO 和 Flickr30K 上，BLIP 以更少的预训练数据（14M）超越 ALBEF、CLIP 等方法，零样本迁移至视频 - 文本检索时性能显著优于现有模型。
图像标题生成：在 NoCaps 和 COCO 上，BLIP 的 CIDEr 和 SPICE 分数超过 VinVL、LEMON 等方法，且无需预训练目标检测器。
视觉问答（VQA）与自然语言视觉推理（NLVR²）：BLIP 在 VQA 测试集上比 ALBEF 提升 1.6%，在 NLVR² 上接近最优性能。
零样本视频 - 语言任务迁移：直接将图像训练的模型应用于视频 - 文本检索和视频问答，性能超越专门针对视频设计的模型。

四、结论与未来方向

主要贡献

BLIP 通过统一的 MED 架构和 CapFilt 数据自举方法，实现了视觉 - 语言理解与生成任务的高性能统一，在多个下游任务上达到 state-of-the-art。

未来方向

多轮数据自举。
单图像多合成标题生成。
模型集成等，进一步提升模型性能。

五、资源与代码

论文提供了预训练模型、代码和自举数据集，支持后续研究。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/pingmian/87088.shtml
繁体地址，请注明出处：http://hk.pswp.cn/pingmian/87088.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！