目录
VideoRefer
VideoPrism 核心解密:通用视频编码器的力量
VideoRefer
VideoRefer 是由浙江大学和阿里达摩院联合推出的视频对象感知与推理技术,增强视频大型语言模型(Video LLMs)的空间-时间理解能力。简单一点来说就是可以让大模型真的理解视频内容,从视频里的对象、空间、时间的维度来真的『看懂』一个视频。
通过细粒度的视频对象理解、复杂关系分析、推理预测及多模态交互,为视频内容的精确理解、推理和检索提供了强大的技术支持。
https://github.com/DAMO-NLP-SG/VideoRefer
作者:MansFlower
链接:https://www.zhihu.com/question/540409978/answer/1921603242212693118
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
VideoPrism 核心解密:通用视频编码器的力量
什么是 VideoPrism?
VideoPrism 并非一个简单的视频应用,而是一个强大的基础视觉编码器。它能够将输入的视频帧转化为紧凑的特征嵌入(embeddings),这些嵌入可以方便地输入到分类器、大型语言模型(LLMs)或检索模型中,从而执行各种复杂的视频理解任务。其设计目标是实现通用视频理解,这意味着一个单一的、冻结的模型就能处理从视频分类、检索到问答等广泛任务,而无需针对特定任务进行额外的微调。这对于实际生产者和开发者而言,极大地降低了技术门槛和开发成本。
技术架构与创新亮点
VideoPrism 的强大能力源于其创新的预训练数据和建模策略。
该模型架构基于标准的 Vision Transformer (ViT),并采用了 ViViT 的分解设计,能够顺序编码空间和时间信息。其图像编码器和文本编码器则从 CoCa 初始化,CoCa 是在 WebLI 数据集上训练的。
VideoPrism 的预训练过程采用独特的两阶段训练方法:
- 视频-文本对比学习: 第一阶段,模型通过对比学习来匹配视频及其文本描述(包括不完美的描述),最小化正向视频-文本对的距离,最大化负向对的距离。这为模型建立了语义语言内容与视觉内容匹配的基础,使其能够从视频字幕中捕获丰富的语义信息 。
- 改进的掩码视频建模: 第二阶段,模型利用不带文本描述的视频数据,在掩码视频建模框架上进行训练。它被要求根据未被掩码的视频片段,预测第一阶段学到的视频级全局嵌入和逐令牌嵌入。为了防止模型学习捷径,预测的令牌会被随机打乱。这种方法使得 VideoPrism 能够专注于视频模态本身,同时利用视频关联的宝贵文本信息,使其在兼顾视频外观和运动理解的任务上表现出色。