多模态大模型Keye-VL-1.5发布!视频理解能力更强!

近日,快手正式发布了多模态大语言模型Keye-VL-1.5-8B。

与之前的版本相比,Keye-VL-1.5的综合性能实现显著提升,尤其在基础视觉理解能力方面,包括视觉元素识别、推理能力以及对时序信息的理—表现尤为突出。Keye-VL-1.5在同等规模的模型中表现出色,甚至超越了一些闭源模型如GPT-4o。

Keye-VL-1.5-8B在技术上实现了三项关键创新:

  • 引入慢快编码策略(Slow-Fast):该策略基于相似性算法自动区分慢帧与快帧,并将快帧的 token 预算控制为慢帧的 30%。同时,通过引入特殊 token 和时间戳标记帧边界,有效平衡了性能与计算成本。
  • 采用渐进式四阶段预训练方法:从跨模态对齐与多任务预训练起步,在退火阶段将模型上下文长度从 8K 扩展至 128K,使其能够处理更长视频和更复杂的视觉内容,大幅增强视频理解能力。最终的模型融合阶段通过使用不同数据混合训练的模型进行组合,以提高鲁棒性并减少偏差。
  • 全面优化后训练流程:提出五步自动化数据构造流水线,基于 GSPO 算法迭代通用强化学习与对齐阶段,全面提升模型的推理能力并与人类偏好对齐。

在多个公开的视频基准测试中,Keye-VL 1.5 8B在同等规模的模型中性能最优,并在MMMUval和AI2D等大规模基准测试中,Keye-VL 1.5 8B取得了业界最佳成绩!

图片

Keye-VL-1.5-8B现已开源,并公布了公开技术报告,欢迎各位开发者前往体验和交流。

项目主页:https://kwai-keye.github.io/

技术报告:https://arxiv.org/pdf/2509.01563

Github:https://github.com/Kwai-Keye/Keye

Model:https://huggingface.co/Kwai-Keye/Keye-VL-1.5-8B

先来看三个案例:

案例一:时序信息理解

demo1

Prompt:视频中包出现的时间段是多少?

Keye:视频中包出现的时间段是22.3秒至23.8秒。

案例二:推理能力

demo2

Prompt:视频里大狗咬小狗的耳朵是为什么?

keye:视频中,小狗试图扒着桌子够取食物,大狗(狗爸)通过轻咬小狗耳朵的行为,实则是在**纠正小狗的不当行为**。这种轻咬是狗群中常见的“教育”方式,成年狗会用它告诉幼崽“这样做不对”,需遵守规则。当小狗收到这一信号后,便从站立够食的状态逐渐坐下来,最终躺下服从管理,说明大狗的行为成功传递了“不能偷食桌上食物”的警告。 \boxed{大狗咬小狗耳朵是纠正其试图偷吃桌上食物的错误行为,通过轻咬传递警告让小狗服从管理。}

案例三:描述能力

demo3

Prompt:请仔细描述视频中的场景内容?

Keye:视频的主要场景是一个被茂密森林环绕的潮湿角落,画面中间是一条破损的老旧石阶,石板的石板有裂,表面长满绿色苔藓和杂草,显得斑驳沧桑。周围是高大的深色树木,树枝上挂着鲜绿色的树叶,树叶间透出柔和的散射光,给场景增添了一层朦胧感。地面上散落着许多小白花或菌类,与绿色苔藓交织,形成生机盎然的地面覆盖。背景中森林延伸至远方,树木逐渐模糊,展示出场景的深度与神秘感。空气中似乎带着细密的雨雾,地面和石阶都显得潮湿,偶尔有雨滴落下,进一步强化了潮湿的气氛。整体色调绿色和棕色为主,呈现出一种静谧。自然且略带荒凉的原始森林景象。

「核心技术架构全公开」

Keye-VL-1.5采用经典的多模态大语言模型架构,由三个核心组件构成:视觉Transformer(ViT)、MLP投影器和语言解码器。该模型使用SigLIP-400M-384-14作为视觉编码器,Qwen3-8B作为语言解码器。在Vision encoder方面,采取了原生分辨率ViT,2D ROPE增强高分图像理解,使用了500B Token的多源数据进行预训练。在视觉特征处理方面,针对不同视觉输入采用差异化编码策略。对于图像,每张图像使用20,480个token来保证细节捕获。

图片

一、慢快编码策略:兼顾性能与成本

视频内容通常包含两种类型的画面:一种是快速变化、富含细节的画面(如运动场景),另一种是相对静态的画面(如静止风景)。为了在短视频理解任务中同时实现高准确性与高效率。Keye-VL-1.5 创新性地提出了慢快编码策略 (slow-fast),该策略设置慢通路处理快速变化帧(低帧数-高分辨率),快通路处理静态帧(高帧数-低分辨率),从而在节省计算资源的同时保留关键信息。

具体来说,通过基于图片相似性的算法自动识别慢快帧,快帧的token预算设为慢帧的30%,并引入特殊token和时间戳来标识帧边界,实现了性能与计算成本的有效平衡。

图片

二、Pretrain 策略:渐进式四阶段预训练方法

Keye-VL-1.5采用精心设计的四阶段渐进式训练流水线,确保每个阶段都有清晰且相互关联的目标。

视觉编码器预训练:使用SigLIP-400M权重初始化ViT,通过SigLIP对比损失函数进行持续预训练,适应内部数据分布。

第一阶段 - 跨模态对齐:专注优化投影MLP层,建立跨模态特征的稳固对齐基础。

第二阶段 - 多任务预训练:解冻所有模型参数进行端到端优化,显著增强模型的基础视觉理解能力。

第三阶段 - 退火训练:在精选高质量数据上进行微调,解决第二阶段大规模训练中高质量样本接触不足的问题。同时将序列长度从8K扩展至128K,RoPE逆频率从100万重置为800万,并引入长视频、长文本和大尺度图像等长上下文模态数据。

模型融合:为减少固定数据比例带来的内在偏差,在预训练最终阶段采用同质-异质融合技术,对不同数据混合比例下退火训练的模型权重进行平均,保持多样化能力的同时减少整体偏差,增强模型鲁棒性。

图片

三、Post-training策略:全面提升推理能力与人类偏好对齐

图片

Keye-VL-1.5的训练后处理包含四个主要阶段:

Stage 1:监督微调与多偏好优化

使用750万个多模态问答样本进行监督微调,然后通过MPO算法进一步提升性能。

图片

Stage 2:长链思考冷启动

为了获取高质量的冷启动训练数据,Keye-VL-1.5提出了一个全面的五步自动化流水线来生成高质量长链思考数据。首先从多个挑战性领域收集多模态问答数据,并使用专有模型进行问题重写和任务合并以增加复杂性;然后为每个问答对生成多个推理轨迹并量化模型置信度;接着实施双层质量评估框架,同时评估答案正确性和推理过程有效性,将样本分为高质量(A类)、中等质量(B类)和低质量(C类)三个等级;对于B类样本和部分A类样本,采用人工指导的改进过程来提升推理质量;最后实施五点质量评分系统和自适应数据利用策略,让高质量样本在训练中被更频繁使用。

Stage 3:迭代通用强化学习

使用GSPO算法进行可验证奖励强化学习训练,采用渐进提示采样处理困难样本(对于模型多次rollout都回答不对的样本,在prompt中给予不同程度的提示),通过多轮迭代持续优化模型推理能力。这个阶段和long cot sft迭代进行,使用RL模型 rollout更好的response(reward model 打分)进行SFT,然后使用SFT模型进行下一阶段的RL数据筛选与训练。

Stage 4:对齐强化学习

重点增强模型在指令遵循(生成满足用户内容、格式、长度要求的回应),instruction following(确保回应符合预定义格式如思考-回答等模式)和偏好对齐(提高开放式问题回应的可靠性和交互性)三个维度的能力。

四、实验效果

Keye-VL在多模态AI领域取得突破性进展

在通用视觉语言任务中,该模型在思考模式下于MMMUval和OpenCompass等大规模基准测试中分别获得71.4%和79.5%的同等scale的业界最佳成绩,在ZeroBenchsub和MMVP等挑战性测试中同样表现卓越,并在HallusionBench中实现62.7%准确率,显著降低AI幻觉现象。在视频理解领域,Keye-VL表现更佳,在Video-MMMU测试中达到了66分,充分证明了其在视频内容理解方面的技术优势。

图片


Keye-VL内部人工基准测试显示显著性能提升

为了全面评估模型能力,快手Keye团队构建了严格的内部视频评估基准,解决了公开基准测试存在的任务覆盖有限、问题格式过于简化、答案方法受限、数据污染风险和语言文化偏见等问题。该基准涵盖视觉元素识别、推理能力、时序信息理解、基于知识的问答、描述能力、鲁棒性、创造能力和领域专业知识八个维度,采用多模型对比评估和GSB偏好选择的评分方法。

评估结果显示,Keye-VL-1.5-8B取得了显著的性能提升:总体综合得分达到3.53,相比Keye-VL-Preview提升0.51分,在正确性(+0.57)和完整性(+0.25)方面表现尤为突出。与行业基准MiMoVL-7B-RL-2508的直接对比中,Keye-VL-1.5-8B获得更高的总体得分(3.53对3.40),在正确性方面领先0.19分。详细能力分析显示,该模型在推理能力(3.81)、时序信息理解(3.36)和鲁棒性(4.29)方面表现卓越,其中鲁棒性相比竞品领先0.83分,充分证明了模型在处理复杂分析任务和保持稳定性能方面的强大优势。相比前版本,模型在基础视觉理解能力方面建立了坚实基础,视觉元素识别提升0.35分,推理能力提升1.00分,时序信息理解提升0.77分,为处理复杂多模态推理任务提供了强大的技术支撑。

图片

展望未来,依托快手在短视频领域深厚的技术积累,Kwai Keye-VL 在视频理解方面具备独特优势。该模型的发布与开源,标志着多模态大语言模型在视频理解新纪元的探索迈出了坚实一步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/921705.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/921705.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

洗完头后根据个人需求选择合适的自然风干 | 电吹风 (在保护发质的同时,也能兼顾到生活的便利和舒适。)

文章目录 引言 I 选合适的方式让头发变干 时间充裕,不需要做造型,选择自然风干 使用电吹风,比较推荐的做法 II 自然风干 天冷可能刺激头皮 III 电吹风吹干 容易造型 影响头皮健康 损伤发质 科普 头皮的微观结构 头发丝 引言 吹风吹干:容易造型,但损伤发质、影响头皮健康 …

GPS汽车限速器有哪些功能?主要运用在哪里?

GPS 汽车限速器是一种结合全球卫星定位(GPS)技术、车速采集技术与车辆控制 / 预警逻辑的设备,核心目标是通过技术手段限制车辆行驶速度,减少超速引发的交通事故,并辅助车辆管理。其功能与应用场景高度匹配不同用户的 “…

Python从入门到精通_01_python基础

1 源代码格式在python文件的第一行,输入以下语句,可以将python文件的编码格式设置为utf-8#-*- coding:utf-8 -*-2 输入输出input():输入,无论输入的是什么类型数据,最后都是字符串类型print(*args, sep , end\n, fileNone, flushF…

使用CI/CD部署项目(前端Nextjs)

写在前面:在github上使用CI/CD部署Nextjs项目,具体配置可以按照自己的实际的修改 这是我的项目配置,仅供参考 后端项目可以参考:使用CI/CD部署后端项目 正文开始 项目名(PROJECT_NAME)- CI/CD 部署指南…

Java全栈工程师面试实录:从基础到实战的全面解析

Java全栈工程师面试实录:从基础到实战的全面解析 面试官:李明(资深技术负责人) 应聘者:张宇(28岁,硕士学历,5年开发经验) 第一轮:Java语言与JVM基础 李明&…

C#中解析XML时遇到注释节点报错

在C#中解析XML时遇到注释节点报错的问题&#xff0c;这是因为XML注释节点&#xff08;<!-- -->&#xff09;是特殊的节点类型。当遍历XML节点时&#xff0c;注释节点也会被包含在内&#xff0c;但它们不能像普通元素节点那样处理。 解决方案 方法1&#xff1a;跳过注释节…

9.3深度循环神经网络

目前为止&#xff0c;只讨论了具有一个单向隐藏层的循环神经网络&#xff0c;其中隐变量和观测值域具体的函数形式的交互方式是相当随意的。只要交互类型建模具有足够的灵活性&#xff0c;不是一个单问题。然而&#xff0c;对一个单层来说&#xff0c;可能具有相当的挑战性。之…

CSS in JS 的演进:Styled Components, Emotion 等的深度对比与技术选型指引

CSS in JS 的演进&#xff1a;Styled Components, Emotion 等的深度对比与技术选型指引在现代前端开发中&#xff0c;组件化思维已成为主流&#xff0c;而如何科学、高效地管理组件的样式&#xff0c;也随之成为了一个重要议题。CSS in JS&#xff08;JS中的CSS&#xff09;应运…

【正则表达式】 正则表达式的分组和引用

🌈 个人主页:(时光煮雨) 🔥 高质量专栏:vulnhub靶机渗透测试 👈 希望得到您的订阅和支持~ 💡 创作高质量博文(平均质量分95+),分享更多关于网络安全、Python领域的优质内容!(希望得到您的关注~) 🌵目录🌵 前言 🍱一、基本语法 🍘二、分组类型 🍙2.1.…

Grafana 导入仪表盘失败:从日志排查到解决 max\_allowed\_packet 问题

问题背景 近期在为项目搭建一套基于 Prometheus 和 Grafana 的可观测性体系。在完成基础部署后&#xff0c;我准备导入一个功能相对复杂的官方仪表盘模板&#xff0c;以便快速监控各项指标。然而&#xff0c;当上传仪表盘的 JSON 文件并点击保存时&#xff0c;Grafana 界面却反…

java对接物联网设备(一)——使用okhttp网络工具框架对接标准API接口

当前无论是在互联网领域&#xff0c;还是物联网项目下&#xff0c;亦或者各类应用类软件&#xff0c;基于http标准接口的对接是目前市面上最常见也是最简单的数据交互方式之一&#xff0c;甚至可以说是最流行的&#xff0c;因为它不依赖的各种插件或者服务。 开发者或者提供服…

版本管理系统与平台(权威资料核对、深入解析、行业选型与国产平台补充)

本文是一篇基于公开权威资料&#xff08;官方文档、产品页、厂商技术文章与技术社区讨论&#xff09;重新检索、核对后撰写的详尽博文。内容覆盖&#xff1a;版本控制基础、主流 VCS 工具深度比较、常见托管/协作平台&#xff08;含中国本土平台&#xff1a;Gitee / GitCode / …

计算机毕设选题:基于Python+Django的B站数据分析系统的设计与实现【源码+文档+调试】

精彩专栏推荐订阅&#xff1a;在 下方专栏&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; &#x1f496;&#x1f525;作者主页&#xff1a;计算机毕设木哥&#x1f525; &#x1f496; 文章目录 一、项目介绍二…

Easy ES技术详解

从Java代码示例到高级特性 框架介绍 Easy-Es 是一款以 “简化 Elasticsearch 操作的 ORM 框架” 为核心定位的开源工具&#xff0c;旨在通过低代码设计降低 Elasticsearch 的使用门槛。作为国内 Top1 Elasticsearch 搜索引擎框架&#xff0c;其最显著的优势在于大幅缩减代码量…

【51单片机】【protues仿真】基于51单片机停车场的车位管理系统

目录 一、主要功能 二、使用步骤 三、硬件资源 四、软件设计 五、实验现象 一、主要功能 1、LCD1602液晶显示 2、统计并显示停车场现有车辆数和已停放过车辆数 3、按键设置总车位数以及剩余车位数 4、统计并显示累计驶入和累计驶出车辆数 5、用16个LED灯模拟停车位 6、车…

【Python】S1 基础篇 P4 if 语句指南

目录简单示例条件测试检查是否相等与不等检查多个条件检查特定的值是否在/不在列表中布尔表达式if语句简单的if语句if-else语句if-elif-else语句使用if语句处理列表检查特殊元素确定列表非空使用多个列表总结if 语句是Python编程中最基本也是最重要的控制结构之一。它允许程序根…

【实战中提升自己】内网安全部署之STP的安全技术部署

1 1拓扑 「模拟器、工具合集」复制整段内容 链接&#xff1a;https://docs.qq.com/sheet/DV0xxTmFDRFVoY1dQ?tab7ulgil1 STP的安全技术部署 说明&#xff1a;为什么需要注意STP的安全呢&#xff0c;在二层中其实存在很多不安全的因素&#xff0c;物理上…

GEM5学习(5): ARM 架构功耗仿真

运行脚本基于gem5提供的脚本&#xff0c;启动功耗仿真。实际工作中应该不会用gem5进行功耗的仿真吧&#xff0c;Cadence和Synopsys好像都有配套的的功耗建模工具。事先要配置好 IMG_ROOT的环境变量./build/ARM/gem5.opt configs/example/arm/fs_power.py \--caches \--bootl…

【Python基础】 19 Rust 与 Python if 语句对比笔记

一、基本语法对比 Rust if 语句 // 基本形式 let number 7;if number < 5 {println!("condition was true"); } else {println!("condition was false"); }// 多条件 else if if number % 4 0 {println!("number is divisible by 4"); } el…

Vue项目_项目配置脚本代码详细讲解

Vue项目代码详细讲解 1. jsconfig.json - JavaScript配置文件 {"compilerOptions": { // 编译器选项配置"target": "es5", // 编译目标&#xff1a;将代码编译为ES5版本&#xff0c;确保更好的浏览器兼容性"module": "esnext…