CVPR2025丨VL2Lite:如何将巨型VLM的“知识”精炼后灌入轻量网络?这项蒸馏技术实现了任务专用的极致压缩

关注gongzhonghao【CVPR顶会精选

小模型(Small Models)通常指参数量较小、计算与存储成本更低的深度学习模型。近年来,它们在移动端部署、边缘计算和隐私保护等场景中快速发展,逐渐成为大模型的轻量化补充。

随着蒸馏、剪枝、量化等技术成熟,小模型在语音识别、图像分类等任务中已能接近甚至媲美大模型表现。但受限于容量和泛化能力,其在复杂推理、跨模态理解方面仍存在不足。今天小图给大家精选3篇CVPR有关小模型方向的论文,请注意查收!

论文一:A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs

方法:

文章首先通过实验证明了小型VLM的全局注意力图与大型VLM的一致性,基于此提出了SGP方法,它先在小型VLM中聚合所有层的注意力图以计算视觉标记的重要性分数,然后利用这些分数指导大型VLM中视觉标记的修剪,有效减少了大型VLM的计算负担。同时,文章还设计了SEE机制,通过评估小型VLM的预测置信度来决定是否提前终止推理,避免了对大型VLM的无谓调用,两者结合在多个基准测试中展现了优异的效率与性能平衡。

图片

创新点:

  • 首次发现小型VLM的全局注意力图与大型VLM高度相似,突破了以往仅依赖大型VLM单层注意力图的局限。

  • 提出了Small VLM-Guided视觉标记修剪技术,利用小型VLM的全局注意力图对大型VLM的视觉标记进行重要性排序并修剪不重要的标记,实现了在极低标记保留率下的性能优化。

  • 引入了Small VLM Early Exiting机制,进一步减少了不必要的计算,提升了整体的推理效率。

图片

论文链接:

https://cvpr.thecvf.com/virtual/2025/poster/34456

图灵学术科研辅导

论文二:VL2Lite: Task-Specific Knowledge Distillation from Large Vision-Language Models to Lightweight Networks

方法:

文章首先定义了一个任务特定的分类损失函数,确保轻量级模型能够准确地完成特定任务。接着,通过视觉知识蒸馏损失函数,利用知识凝聚层将VLMs的高维特征压缩到适合轻量级模型的低维空间,同时保持特征间的关系。此外,通过语言知识蒸馏损失函数,进一步将VLMs的文本编码器输出与轻量级模型的视觉特征对齐,增强其语义理解能力。最终,将这三个损失函数整合到一个复合损失函数中,并在训练过程中动态调整它们的权重,以实现同时进行分类和知识蒸馏的目标。

图片

创新点:

  • 提出了直接从预训练的VLMs到轻量级模型的一阶段知识蒸馏方法,避免了传统两阶段知识蒸馏的复杂性和偏见传播。

  • 创新性地结合了视觉和语言知识蒸馏,通过专门设计的损失函数和知识凝聚层,实现了更有效的知识迁移。

  • 引入了文本提示工程来增强轻量级模型的语义理解能力,进一步提升了其在视觉任务上的表现。

图片

论文链接:

https://cvpr.thecvf.com/virtual/2025/poster/33217

图灵学术科研辅导

论文三:BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices

方法:

文章首先对现有的动态分辨率方案进行了改进,通过引入放松的宽高比匹配方法,减少了图像放大带来的额外计算负担。接着,针对移动设备的硬件特性,设计了批量图像编码和流水线并行处理策略,以充分利用硬件的计算能力。此外,还采用了分块计算方法来处理长输入序列,平衡了并行处理和硬件性能之间的关系。最后,通过混合精度量化和解耦图像编码与指令处理的框架,进一步优化了模型在移动设备上的部署效率。

图片

创新点:

  • 提出了一种改进的动态分辨率方案,通过放松宽高比匹配方法,有效减少了图像标记的数量,同时保持了模型的准确性。

  • 设计了一系列针对移动设备硬件感知的系统优化措施,包括批量图像编码、流水线并行处理和分块计算,显著提高了模型的推理效率。

  • 实现了混合精度量化和图像编码与指令处理的解耦,进一步降低了内存使用量,提高了模型的部署效率。

图片

论文链接:

https://cvpr.thecvf.com/virtual/2025/poster/34136

本文选自gongzhonghao【CVPR顶会精选

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/94896.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/94896.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【SystemUI】锁屏来通知默认亮屏Wake模式

一、问题描述 基于 Android 14平台,锁屏状态下来通知时默认是进入Doze模式,此时屏幕不能点击只能查看通知信息且很快灭屏,用户体验不是很好,要求修改为通知直接亮屏。二、问题分析 梳理锁屏状态下(特指设备息屏或处于D…

高并发写入、毫秒级查询——盘古信息携手 TDengine 时序数据库解决六大技术挑战

小T导读:广东盘古信息科技股份有限公司(下文简称盘古信息)成立于 2005 年,是一家基于工业互联网平台的数字化管理解决方案供应商,公司自主研发的 IMS(数字化智能制造系统)可为离散、流程及混合制…

Unity 打包 iOS,Xcode 构建并上传 App Store

一、准备工作(环境、账号、证书与项目基础)系统与工具macOS:使用与最新 Xcode 兼容的版本。Xcode:从 Mac App Store 安装最新稳定版(建议与当前 App Store 必需的 Xcode 主版本保持一致)。Unity&#xff1a…

Windows系统安装stata软件教程

1、解压缩2、点击next3、选择第一个,然后next4、这里随便填写就行5、选择stataMP,然后next6、这里改个路径,例如D:\Program Files\Stata18\7、这里不用管,选择next8、点击install,开始安装过程9、安装过程展示。10、最…

Android 开发 - 数据共享(数据共享、内容提供者实现、动态权限申请)

一、数据共享 1、内容提供者 内容提供者 ContentProvider 为 APP 存取内部数据提供统一的外部接口,让不同的应用之间得以共享数据2、流程理解 Client APP 将用户的输入内容通过 ContentProvider 跨进程通信传递给 Server APP3、数据访问 利用 ContentProvider 只实现…

【51单片机按键按下数码管秒增计时并LED亮释放停计时LED熄】2022-11-12

缘由单片机控制数码管及LED灯-嵌入式-CSDN问答 #include "REG52.h" sbit k1P3^0; unsigned char Js0;//计时 unsigned char code smgduan[]{0x3f,0x06,0x5b,0x4f,0x66,0x6d,0x7d,0x07 ,0x7f,0x6f,0x77,0x7c,0x39,0x5e,0x79,0x71,0,64,15,56}; //共阴0~F消隐减号 void…

IBMS集成管理系统与3D数字孪生智能服务系统的应用

一九九二九九零七八八三一、数据全生命周期安全:从采集到销毁的闭环防护整合系统的核心风险之一是数据泄露或篡改(如设备控制参数、建筑安防布局、人员动线数据),需覆盖数据流转的每个环节:1. 数据采集阶段&#xff1a…

Vue3组件加载顺序

父组件&#xff1a;QualityFile.vue<script setup lang"ts" name"QualityFile"> ...... </script><template><el-container class"container"><el-header class"header"><!-- 标题 --><div cl…

GitHub 宕机自救指南:应急预案与替代平台

GitHub 宕机自救指南:应急预案与替代平台 对于全球数百万开发者而言,GitHub 的稳定运行至关重要。然而,即便是最可靠的服务也可能出现意外中断。当 GitHub 无法访问时,代码托管、协作开发、持续集成与部署(CI/CD)等关键环节都将受到影响。本指南旨在为您提供一套完整的应…

将跨平台框架或游戏引擎开发的 macOS 应用上架 Mac App Store

随着 macOS 用户数量的增长&#xff0c;越来越多的开发者希望将自己的桌面应用或游戏上架到 Mac App Store&#xff0c;以便触达更多用户并获得官方的分发优势。但 Apple 的上架流程相比其他平台要严格得多&#xff0c;涉及签名、打包、沙盒、审核、公证等环节。本文将以博文的…

拷贝构造和赋值重载有什么区别

问题拷贝构造和赋值重载有什么区别我的回答拷贝构造函数和赋值运算符重载是C中两个看似相似但用途和行为有明显区别的特性。拷贝构造函数是用来创建一个新对象作为已存在对象的副本。它的形式是ClassName(const ClassName& other)&#xff0c;在以下情况会被调用&#xff1…

(笔记)输入法框架协作机制深度分析

概述 Android输入法框架&#xff08;IMF - Input Method Framework&#xff09;是Android系统中负责管理虚拟键盘和文本输入的核心组件。该框架协调输入法服务&#xff08;IME&#xff09;、应用程序和系统输入系统之间的复杂交互&#xff0c;为用户提供灵活高效的文本输入体验…

解开 Ansible 任务复用谜题:过滤器用法、Include/Import 本质差异与任务文件价值详解

1. 什么是变量过滤器&#xff08;Variable Filters&#xff09;&#xff1f;请列举几个常用的Jinja2过滤器及其用途。变量过滤器是在Jinja2模板中用于修改或格式化变量输出的工具。常用过滤器&#xff1a;to_json/to_yaml&#xff1a;将数据结构&#xff08;如字典、列表&#…

LangGraph-笑话评估器 应用实战

场景&#xff1a;用户指定冷笑话主题&#xff0c;生成冷笑话后&#xff0c;进行评估&#xff0c;如果不搞笑就需要重新生成以下代码实现了一个基于LangGraph的冷笑话自动生成与评估工作流。系统包含两个核心节点&#xff1a;生成器根据用户主题创作冷笑话&#xff0c;评估器对笑…

Paimon——官网阅读:Flink 引擎

Flink 引擎 快速入门 本文档是在Flink中使用Paimon的指南。 相关JAR包 Paimon目前支持Flink 1.20、1.19、1.18、1.17、1.16、1.15 。为获得更好的体验&#xff0c;我们推荐使用最新的Flink版本。 下载对应版本的JAR文件。 目前&#xff0c;Paimon提供两种类型的JAR包&…

2025.8.28总结

工作日精进&#xff1a;今天终于把SPN控制器对接成功了&#xff0c;之前对接出现各种各样的问题&#xff0c;搞得自己都有些心力交瘁。感觉自己明明很忙&#xff0c;也在努力的去推动进度&#xff0c;但还是阻塞了两三天。最后求助了另一个同事&#xff0c;结果在他的指导和帮忙…

使用 Action 自动部署 VuePress 到 GitHub Pages

⚙️ 成果&#xff1a; 框架&#xff1a;VuePress 2 vuepress/plugin-blog打包工具&#xff1a;Vite&#xff08;viteBundler&#xff09;包管理&#xff1a;pnpmCI/CD&#xff1a;GitHub Actions部署方案&#xff1a; 源码仓库&#xff1a;urfread1010/mind-elevation打包结…

【人工智能】2025年AI代理开源革命:社区驱动的智能体生态重塑未来

还在为高昂的AI开发成本发愁?这本书教你如何在个人电脑上引爆DeepSeek的澎湃算力! 2025年,AI代理(AI Agents)的开源浪潮席卷全球,标志着人工智能从封闭的商业模式向社区驱动的协作生态转型。这一浪潮由开源社区主导,推动了智能体的快速迭代和民主化发展。本文深入探讨了…

QT:【第一个QT程序】【信号和槽】

目录 一. 第一个QT程序 1.1纯代码实现 1.2可视化操作实现 1.3 项目文件解析 1.3.1 .pro文件解析 1.3.2 widget.h 文件解析 1.3.3 main.cpp文件解析 1.3.4 widget.cpp 1.3.5 widget.ui文件解析 1.4对象树 演示自动释放的过程 1.5 中文乱码 1.6 Qt窗口坐标系 二. 信…