PaliGemma 2-轻量级开放式视觉语言模型

PaliGemma 2是轻量级开放式视觉语言模型 (VLM)，灵感源自 PaLI-3，基于 SigLIP 视觉模型和 Gemma 语言模型等开放式组件。PaliGemma 同时接受图片和文本作为输入，并且可以回答有关图片的详细问题和背景信息。
PaliGemma 2 提供 30 亿、100 亿和 280 亿个参数的大小，分别基于 Gemma 2 20 亿、90 亿和 270 亿个参数的模型。三种参数规模(3B/10B/28B)、三种分辨率(224×224/448×448/896×896)。
在这里插入图片描述

模型架构

PaliGemma 2 由 Transformer 解码器和 Vision Transformer 图片编码器组成。文本解码器从 2B、9B 和 27B 参数大小的 Gemma 2 初始化。图片编码器从 SigLIP-So400m/14 初始化。与原始 PaliGemma 模型类似，PaLiGemma 2 是按照 PaLI-3 方案训练的。
在这里插入图片描述

输入和输出

● 输入：图片和文本字符串，例如用于为图片添加说明的提示或问题。
● 输出：针对输入生成的文本，例如图片的标题、问题的答案、对象边界框坐标列表或分割代码词。

视觉编码器

SigLIP：其shape optimized ViT-So400m图像编码器，该模型通过sigmoid损失在大规模上进行了对比预训练，且其在小尺寸上也表现出色。

输入投影

线性投影：将SigLIP的输出到与gemma的词汇token相同的维度，以便它们可以被连接。
LLM主干。

LLM主干

Gemma2 10B：该模型可以匹配或超越使用相对更大些的语言模型的VLMs的性能，包括之前的PaLIs。
在这里插入图片描述

Finetune

不在这里

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/pingmian/89711.shtml
繁体地址，请注明出处：http://hk.pswp.cn/pingmian/89711.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！