视频理解学习笔记

VideoRefer

VideoPrism 核心解密：通用视频编码器的力量

VideoRefer

VideoRefer 是由浙江大学和阿里达摩院联合推出的视频对象感知与推理技术，增强视频大型语言模型（Video LLMs）的空间-时间理解能力。简单一点来说就是可以让大模型真的理解视频内容，从视频里的对象、空间、时间的维度来真的『看懂』一个视频。

通过细粒度的视频对象理解、复杂关系分析、推理预测及多模态交互，为视频内容的精确理解、推理和检索提供了强大的技术支持。

https://github.com/DAMO-NLP-SG/VideoRefer

作者：MansFlower
链接：https://www.zhihu.com/question/540409978/answer/1921603242212693118
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

VideoPrism 核心解密：通用视频编码器的力量

什么是 VideoPrism？

VideoPrism 并非一个简单的视频应用，而是一个强大的基础视觉编码器。它能够将输入的视频帧转化为紧凑的特征嵌入（embeddings），这些嵌入可以方便地输入到分类器、大型语言模型（LLMs）或检索模型中，从而执行各种复杂的视频理解任务。其设计目标是实现通用视频理解，这意味着一个单一的、冻结的模型就能处理从视频分类、检索到问答等广泛任务，而无需针对特定任务进行额外的微调。这对于实际生产者和开发者而言，极大地降低了技术门槛和开发成本。

技术架构与创新亮点

VideoPrism 的强大能力源于其创新的预训练数据和建模策略。

该模型架构基于标准的 Vision Transformer (ViT)，并采用了 ViViT 的分解设计，能够顺序编码空间和时间信息。其图像编码器和文本编码器则从 CoCa 初始化，CoCa 是在 WebLI 数据集上训练的。

VideoPrism 的预训练过程采用独特的两阶段训练方法：

视频-文本对比学习： 第一阶段，模型通过对比学习来匹配视频及其文本描述（包括不完美的描述），最小化正向视频-文本对的距离，最大化负向对的距离。这为模型建立了语义语言内容与视觉内容匹配的基础，使其能够从视频字幕中捕获丰富的语义信息。
改进的掩码视频建模： 第二阶段，模型利用不带文本描述的视频数据，在掩码视频建模框架上进行训练。它被要求根据未被掩码的视频片段，预测第一阶段学到的视频级全局嵌入和逐令牌嵌入。为了防止模型学习捷径，预测的令牌会被随机打乱。这种方法使得 VideoPrism 能够专注于视频模态本身，同时利用视频关联的宝贵文本信息，使其在兼顾视频外观和运动理解的任务上表现出色。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/web/98061.shtml
繁体地址，请注明出处：http://hk.pswp.cn/web/98061.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！