论文阅读:Instruct BLIP (2023.5)

文章目录

  • InstructBLIP:迈向通用视觉语言模型的指令微调研究总结
    • 一、研究背景与目标
    • 二、核心方法
      • 数据构建与划分
      • 模型架构
      • 训练策略
    • 三、实验结果
      • 零样本性能
      • 消融实验
      • 下游任务微调
      • 定性分析
      • 可视化结果展示
    • 四、结论与贡献

InstructBLIP:迈向通用视觉语言模型的指令微调研究总结

论文题目:InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

论文链接:https://arxiv.org/pdf/2305.06500

一、研究背景与目标

  • 挑战
    视觉-语言任务因视觉输入的多样性和任务复杂性,难以通过单一模型实现通用化。现有方法中,多任务学习缺乏指令引导导致泛化能力弱,基于图像描述数据训练的视觉组件难以支撑复杂任务。

  • 目标
    提出 InstructBLIP 框架,通过视觉-语言指令微调,使模型能通过统一自然语言接口解决多种视觉-语言任务,实现零样本泛化和下游任务微调的最优性能。

二、核心方法

数据构建与划分

  • 收集 26 个公开数据集,转化为指令微调格式,涵盖 11 类任务(如图像 captioning、视觉推理、视频问答等)。
  • 划分 13 个数据集为训练集(held-in),13 个为零样本评估集(held-out),并保留 4 类任务(如视频 QA、视觉对话)用于任务级零样本测试。

指令数据:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

模型架构

  • 基于 BLIP-2 的模块化设计,包含冻结的图像编码器、LLM(如 FlanT5、Vicuna)和可微调的 Query Transformer(Q-Former)。
  • 创新点:引入指令感知的视觉特征提取,将文本指令输入 Q-Former,使其提取与指令相关的视觉特征,增强任务适配性。
    在这里插入图片描述

训练策略

  • 平衡采样:按数据集大小的平方根比例采样,避免小数据集过拟合、大数据集欠拟合,并手动调整特定数据集权重(如降低 A-OKVQA、提高 OKVQA 权重)。
    pd=Sd∑i=1DSip_d = \frac{\sqrt{S_d}}{\sum_{i=1}^{D} \sqrt{S_i}} pd=i=1DSiSd
  • 微调仅更新 Q-Former,冻结图像编码器和 LLM,减少训练参数,提升效率。

三、实验结果

零样本性能

  • 在 13 个 held-out 数据集上全面超越 BLIP-2 和 Flamingo,例如 InstructBLIP FlanT5 XL 相对 BLIP-2 平均提升 15.0%,4B 参数模型性能超过 80B 参数的 Flamingo,平均提升 24.8%。
  • 在未训练过的任务(如视频 QA)上表现优异,MSRVTT-QA 相对最优结果提升 47.1%。

消融实验

  • 移除指令感知特征提取后,空间 / 时间推理任务(如 ScienceQA、iVQA)性能显著下降(最多降低 7.6%)。
  • 移除平衡采样导致训练不稳定,整体性能下降。
    在这里插入图片描述

下游任务微调

  • 作为初始化模型,在 ScienceQA(图像上下文)、OCR-VQA 等任务上刷新 SOTA,例如 ScienceQA 准确率达 90.7%。
  • 冻结视觉编码器,训练参数从 1.2B 减至 188M,大幅提升微调效率。

定性分析

  • 展现复杂视觉推理(如从场景推断灾害类型)、知识关联(如识别名画并介绍)、多轮对话等能力,响应更贴合指令意图,细节更准确。

可视化结果展示

在这里插入图片描述

四、结论与贡献

  • 核心贡献

    • 系统研究视觉-语言指令微调,验证其对零样本泛化的有效性。
    • 提出指令感知特征提取和平衡采样策略,提升模型适应性和训练稳定性。
    • 开源基于 FlanT5 和 Vicuna 的 InstructBLIP 模型,为通用多模态 AI 研究提供基础。
  • 优势:兼顾零样本泛化能力和下游任务微调效率,在多样化视觉-语言任务中表现出通用性和优越性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/89785.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/89785.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Elasticsearch+Logstash+Filebeat+Kibana部署【7.1.1版本】

目录 一、准备阶段 二、实验阶段 1.配置kibana主机 2.配置elasticsearch主机 3.配置logstash主机 4.配置/etc/filebeat/filebeat.yml 三、验证 1.开启Filebeat 2.在logstash查看 3.浏览器访问kibana 一、准备阶段 1.准备四台主机kibana、es、logstash、filebeat 2.在…

Vue开发前端报错:‘vue-cli-service‘ 不是内部或外部命令解决方案

1.Bug: 最近调试一个现有的Vue前端代码,发现如下错误: vue-cli-service’ 不是内部或外部命令,也不是可运行的程序 或批处理文件。 2.Bug原因: 导入的工程缺少依赖包:即缺少node_modules文件夹 3.解决方案&#xff1…

AI生态,钉钉再「出招」

如果说之前钉钉的AI生态加持更多的围绕资源和商业的底层助力,那么如今这种加持则是向更深层次进化,即真正的AI模型训练能力加持,为垂类大模型创业者提供全方位的助力,提高创业成功率和模型产品商业化确定性。作者|皮爷出品|产业家…

XSS GAME靶场

要求用户不参与&#xff0c;触发alert(1337) 目录 Ma Spaghet! Jefff Ugandan Knuckles Ricardo Milos Ah Thats Hawt Ligma Mafia Ok, Boomer Exmaple 1 - Create Example 2 - Overwrite Example 3 - Overwrite2 toString Ma Spaghet! <h2 id"spaghet&qu…

Unity学习笔记(五)——3DRPG游戏(2)

添加更多的敌人 编辑EnemyController&#xff0c;解决报错导致敌人无法注册观察者模式&#xff0c;从而无法执行敌人庆祝动画 using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEngine.AI; public enum EnemyStatus { GUARD,PATROL…

2025测绘程序设计国赛实战:一轮终章 | 单向后方交会C#实现

前言本文是小编对六道国赛试题中的最后一个试题&#xff0c;单向后方交会的一篇学习日志。本文的整体架构&#xff0c;依旧首先拿训练数据跟大家介绍本题涉及到的数据的属性含义&#xff0c;涉及到算法的原理、执行流程和终极目的。然后附上小编用C#来实现的程序&#xff0c;从…

基于Echarts的气象数据可视化网站系统的设计与实现(Python版)

本系统旨在构建一个基于Echarts的气象数据可视化系统&#xff0c;本系统能够从中国天气网爬取实时天气数据&#xff0c;并进行存储、分析和可视化展示。用户可以通过网页界面查看不同地区的天气情况&#xff0c;以及历史天气数据的变化趋势。 技术栈&#xff1a;Python语言、My…

HarmonyOS 启动提速秘籍:懒加载全链路实战解析

摘要 随着移动应用功能越来越复杂、界面越来越丰富&#xff0c;应用启动慢、内存占用高等问题也越来越普遍。特别是在 HarmonyOS NEXT 应用开发中&#xff0c;如果不加优化&#xff0c;用户打开页面时可能要等好几秒&#xff0c;体验就很差了。 懒加载&#xff08;Lazy Loading…

全新安装Proxmox VE启动时卡在Loading initial ramdisk

原因&#xff1a; 使用了Ventoy启动盘装载 Proxmox ISO 文件安装。 要用Ventoy优盘启动&#xff0c;选择Advance Option里的Rescue Boot&#xff0c; 修改文件/etc/default/grub.d/installer.cfg&#xff0c;删除rdinit/vtoy/vtoy运行 update-grub 更新grub配置&#xff0c;重启…

【Java项目安全基石】登录认证实战:Session/Token/JWT用户校验机制深度解析

目录 1.前言 2.正文 2.1Cookie—Session机制 2.1.1核心原理图解&#xff1a; 2.1.2四步核心流程&#xff1a; 2.1.3存储架构对比 2.1.4集群部署方案&#xff08;Spring Session Redis&#xff09; 2.2Token令牌 2.2.1核心原理图解&#xff1a; 2.2.2四步核心流程&am…

融合优势:SIP 广播对讲联动华为会议 全场景沟通响应提速​

SIP 广播对讲与华为视频会议融合解决方案&#xff0c;是基于 SIP 协议将广播对讲系统与华为视频会议系统进行整合&#xff0c;实现通信资源共享与业务流程联动&#xff0c;可提升应急响应效率与沟通协作能力。融合原理&#xff1a;SIP 是一种基于文本的应用层协议&#xff0c;具…

Milvus Dify 学习笔记

目录 docker方式&#xff1a; 模式一&#xff1a;Milvus Lite linux docker方式&#xff1a; 下载yml文件&#xff0c; https://github.com/milvus-io/milvus/releases docker启动&#xff1a; docker compose up -d from pymilvus import connections connections.conne…

汽车ECU控制器通信架构

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是…

【Linux】基本指令(入门篇)(上)

目录 前言 1.目录操作指令 1.1指令 1.2理论 1.2.1文件 1.2.2目录与路径 2.文件操作指令 2.1指令 2.2理论 2.2.1输出与输入 2.2.2一切皆文件 前言 这是Linux学习下的第一篇文章&#xff0c;后续Linux的学习也会持续更新分享。 Linux的基本指令是使用Linux操作系统的基础…

正向代理与反向代理理解

问&#xff1a; 应用a请求ng&#xff0c;然后ng根据不同请求路径将请求转发到不同的服务器&#xff0c;对于应用a来说这个ng是正向代理角色还是反向代理呢&#xff1f; 答&#xff1a; 在这个场景中&#xff0c;Nginx 扮演的是反向代理的角色&#xff0c;而不是正向代理。以下是…

【Kafka】深入理解 Kafka MirrorMaker2 - 实战篇

文章目录一、把“家伙事儿”都备齐二、部署其实很简单三、配置 MirrorMaker2四、修改启动脚本五、集群启动与验证六、这集群“结实”吗&#xff1f;聊聊它的高可用它没有“大脑”&#xff0c;但活得很好极限测试&#xff1a;干掉两个节点会怎样&#xff1f;写在最后最近在跟 Ka…

借助AI学习开源代码git0.7之四update-cache

借助AI学习开源代码git0.7之四update-cache update-cache.c 主要负责对索引&#xff08;index&#xff09;&#xff0c;也即缓存&#xff08;cache&#xff09;&#xff0c;进行增、删、改操作。现在的高层命令 git add 的部分核心功能就是由这个代码实现的。 核心功能 该程序的…

【48】MFC入门到精通——MFC 文件读写总结 CFile、CStdioFile、CFileDialog

文章目录1 打开文件1.2 打开文件模式总结2 常用函数2.1 写文件2.2 读文件2.3 获取文件长度3. 文件打开读写实力3.1 写文件 覆盖写3.2 文尾追加写3.3 换行写4 文件对话框 CFileDialog4.2 文件对话框实例5 CStdioFile 类 读写CStingMFC提供了一个文件操作的基类CFile&#xff0c;…

Leetcode 124. 二叉树中的最大路径和

递归/*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0), left(nullptr), right(nullptr) {}* TreeNode(int x) : val(x), left(nullptr), right(nullptr) {}* TreeNode…

MTSC2025参会感悟:手工测试用例的智能化生成

目录 一、测试用例生成的时代困境与 AI 机遇 1.1 传统手工测试用例的固有痛点 1.2 AI 时代的测试新挑战 1.3 智能化转型的机遇窗口 二、智能用例生成的核心特性与产品功能 2.1 核心特性解析 2.2 四大核心产品功能 功能一&#xff1a;基于 PRD 理解的一键生成用例 功能二…