End-To-End 之于推荐-kuaishou OneRec2 笔记

在这里插入图片描述
End_To_End 之于推荐onerec里,快手利用大模型做了推荐架构的革命,几个月后,v2之于v1是一些技术细节进行了进一步迭代,主要是以下两个方面:

1. 架构层面的突破:Lazy Decoder-Only

在这里插入图片描述

背景问题:V1 的 Encoder-Decoder 架构里,97.66% 的算力都消耗在 context encoding,真正用于生成推荐结果的部分只有 2.34%,导致算力浪费、扩展性差。

改进方案:提出 Lazy Decoder-Only 架构,彻底移除 encoder,context 只作为静态条件输入,通过轻量 cross-attention 与 GQA(Grouped Query Attention)完成交互。

效果

  • 计算量减少 94%,训练资源消耗下降 90%。
  • 在同样计算预算下,模型参数可以扩展到 8B。
  • 训练 loss 随模型扩展呈现一致下降趋势,验证了 scaling law 的可行性。
  • 内存占用降低,支持长上下文(从 512 扩展到 3000)。
  • 结合 MoE(4B 总参 / 0.5B 激活),进一步平衡算力与性能。

2. 偏好对齐:基于真实用户反馈的 RL

V1 局限:仅依赖 Reward Model,会遇到抽样效率低、奖励欺骗(reward hacking)等问题。

V2 改进:Duration-Aware Reward Shaping

直接使用用户反馈作为reward:将视频播放时长与用户历史的同类时长 bucket 对比,取分位数作为 engagement score,避免“长视频天然更高播放时长”的偏差。

GBPO (Gradient-Bounded Policy Optimization)

改进 RL 的 ratio clipping,结合 BCE 的稳定梯度,防止负样本导致梯度爆炸。

不丢弃样本 → 保持探索多样性;梯度有界 → 训练更稳定。

自举式优化:直接利用 OneRec 自身曝光的流量样本做 on-policy 训练,实现自我改进。

对比结果

  • Reward Model → 偏向互动指标(like/comment)。
  • User Feedback → 偏向停留时长(App Stay Time)。
  • Hybrid → 指标均衡,避免 seesaw 效应。

3. 线上 A/B 测试结果

在快手主站 & 极速版 5% 流量实验中(400M DAU):

App Stay Time:+0.467%(主站) / +0.741%(极速版)

LT7(7 日生命周期):+0.069% / +0.034%

互动指标全面提升:like、follow、comment、collect、forward 全部正向改善

推理部署:1B 模型,context=3000,MFU 达 62%,延迟仅 36ms(20×A100 GPU)。

最后,给出一个对比表:

维度OneRec-V1OneRec-V2改进点总结
模型架构Encoder-DecoderLazy Decoder-Only移除 Encoder,计算集中在 Decoder,减少 94% FLOPs
算力分配97.66% 用于 context encoding,仅 2.34% 用于生成≈100% 用于 target decoding解决算力浪费问题,提升 scaling 潜力
扩展能力Decoder 参数比 Encoder 多,但受算力瓶颈限制,难以扩展支持扩展到 8B 参数,MoE 版本 4B 总参(0.5B 激活)高效扩展,更接近 LLM 的 scaling law
Cross Attention标准 cross-attention(KV 投影 + 多头)Lazy Cross-Attention(去掉 KV 投影,KV-Sharing + GQA)降低内存 & 计算开销,支持长上下文(3000)
训练数据组织User-Centric / Encoder-Decoder 组织,存在冗余和泄漏风险Chronological + 仅最新 impression 计算 loss减少冗余训练,避免时间泄漏
RL 策略仅基于 Reward Model(DPO/ECPO)User Feedback 信号驱动 + Duration-Aware Reward + GBPO避免 reward hacking,提升真实偏好对齐
Reward 设计Proxy Reward(容易被模型利用)Duration-Aware Reward Shaping(分位数归一化)去除长视频偏差,更好反映质量
优化算法ECPO(早期裁剪)GBPO(梯度有界 + 全样本利用)稳定性更高,不丢弃样本,探索更多样
自举优化流量较小,主要依赖传统 pipeline 样本OneRec 曝光占流量 25%,可用自生成样本 on-policy 训练实现 self-improvement
线上效果 (主站)App Stay Time +0.269%App Stay Time +0.467%,LT7 +0.069%明显提升,平衡 seesaw 效应
线上效果 (极速版)App Stay Time +0.163%App Stay Time +0.741%,LT7 +0.034%效果更显著
互动指标偏向提升 Like / Comment全面提升(Like、Follow、Comment、Collect、Forward)多目标更均衡
推理效率MFU 较低,部署成本高MFU 62%,延迟 36ms(1B 模型,20×A100)接近 LLM 部署效率,成本降低

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/97772.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/97772.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode】3670. 没有公共位的整数最大乘积 (SOSDP)

3670. 没有公共位的整数最大乘积 - 力扣(LeetCode) 题目: 思路: SOSDP 本题我们显然不能枚举每一个数对,n 的复杂度显然超时,所以考虑优化 我们考虑一个二进制数 mask,因为我们必须要选没有任…

Sping Web MVC入门

1.什么是Sping Web MVC1.1MVC定义2.什么是Spring MVC

LLM面试50问:NLP/RAG/部署/对齐/安全/多模态全覆盖

太好了!下面按你点名的 6 大主题(NLP、检索/RAG、部署、对齐、 安全、多模态)给出深度版答案 + 关键公式/推导 + 最小可跑示例代码 + 常见坑。都尽量精炼到“拿来即用/面试可白板推导”的粒度。 NLP(架构、位置编码、指令跟随) 1) RoPE 长上下文与缩放 要点:RoPE 将位置…

计算机网络技术(四)完结

七,虚拟局域网VLAN1,VLAN概述通过设置虚拟局域网来实现,pc之间实现快速安全通信。对比说明:之前交换机的广播来实现通信,但同意也带来了几个问题,过大的广播域,造成了带宽的浪费,过大…

VibeVoice 部署全指南:Windows 下的挑战与完整解决方案

VibeVoice 部署全指南:Windows 下的挑战与完整解决方案 目标读者:希望在本地部署 VibeVoice 进行文字转语音(TTS)的开发者、研究人员或爱好者 关键词:VibeVoice、FlashAttention-2、Windows 部署、CUDA 加速、FFmpeg、…

一次别开生面的Java面试

场景描述: 在一家知名互联网大厂的面试室中,谢飞机,一个自信满满的程序员,正在经历一场别开生面的Java面试。面试官以严肃的态度开始了这场技术问答。第一轮:基础知识问答 面试官:"我们先从简单的开始…

web自动化测试(selenium)

目录 测试前的准备 驱动 安装驱动管理 selenium库 使用selenium编写代码 自动化测试常用函数 元素的定位 cssSelector xpath 查找元素 点击/提交对象 模拟按键输入 清除文本内容 获取文本信息 获取当前页面标题和URL 窗口 切换窗口 窗口设置大小 屏幕截图 …

民间药方偏方网站整站源码 带数据PHP版

内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示三、学习资料下载一、详细介绍 民间药方偏方网站整站源码 带数据PHP版 这是一个聚焦中国民间药方的平台。平台设有搜索功能,方便用户查找药方,还对药方进行了内科、外科、肿瘤等多类分类&#x…

C++ 条件变量,互斥锁

C 中多线程编程的两个核心同步原语:互斥锁 (Mutex) 和 条件变量 (Condition Variable)。它们是实现线程间安全通信和协调的关键。1. 互斥锁 (Mutex)核心概念互斥锁用于保护共享数据,确保同一时间只有一个线程可以访问该数据,从而避免数据竞争…

MySQL 8.0 窗口函数详解:让数据分析更简单高效

在日常的数据分析工作中,我们经常需要对数据进行分组排序、计算移动平均值、统计累计求和等操作。在MySQL 8.0之前,这类需求通常需要编写复杂的子查询或连接查询才能实现。而MySQL 8.0引入的窗口函数(Window Functions)极大地简化…

【论文阅读】DeepSeek-LV2:用于高级多模态理解的专家混合视觉语言模型

【论文阅读】DeepSeek-LV2:用于高级多模态理解的专家混合视觉语言模型 文章目录【论文阅读】DeepSeek-LV2:用于高级多模态理解的专家混合视觉语言模型一、介绍二、模型结构三、数据建设**3.1 对齐****3.2 视觉语言预训练数据****3.3 监督微调数据**四、训…

一款为开发者而生的开源全栈LLMOps平台

🚀 超越ChatGPT!一款为开发者而生的全栈LLMOps平台:LMForge完全指南 作为一名AI应用开发者,你是否也曾遇到过这些令人头疼的问题? 成本失控:GPT-4的API账单像雪片一样飞来,却不知道钱具体花在…

DeepL Translate在线工具测评:精准翻译技术文档与学术论文,支持多格式文档上传保留原格式

之前跟你们聊过帮着梳理代码协作的 GitLens,今天换个偏向文档翻译的方向 —— 给你们安利一个在线 AI 翻译工具「DeepL Translate」,官网地址是DeepL Translate: The worlds most accurate translator,它跟普通翻译工具不一样,翻技…

系统配置不是“乐高积木”:制造企业如何通过科学变更管理保障稳定运行

在制造业的数字化进程中,系统配置的稳定性常被忽视。作为一家制造企业的行政经理,我曾亲历这样的场景:为应对生产波动,各部门频繁要求调整ERP系统参数,结果导致库存数据失真、订单处理延迟,甚至引发客户投诉…

vscode炒股插件-韭菜盒子AI版

基于vscode插件,原韭菜盒子3.15.0版本开发,新增选股宝快讯功能、AI投资助手、指定股票AI分析功能(目前只针对A股),内置AI大模型助手功能,支持ai分析最新资讯、ai分析当日资讯(让ai随时给你分析股…

Spring Cloud Config 核心原理

Spring Cloud Config 是 Spring Cloud 提供的一个用于集中化管理应用程序各个环境下的配置属性的解决方案。它支持统一管理配置,并且可以在不重启应用的情况下动态地更新配置信息,提高开发和运维效率。 主要特点 • 集中管理配置:可以将不同环…

springboot ioc 控制反转入门与实战

Spring Boot3 IOC 项目地址https://gitee.com/supervol/loong-springboot-study(记得给个start,感谢)IOC 概述在 Spring Boot 3 中,IOC(Inversion of Control,控制反转)是核心思想之一&#xff…

LangGraph 重要注意事项和常见问题

01. 数据状态与归纳函数在前面的课时中,我们说过在 LangGraph 中 节点 在默认情况下返回的字典数据会将原始数据覆盖,例如下面的代码最终返回结果是 {"messages": [4]} 而不是 [1,2,3,4],如下class MyState(TypedDict):messages: l…

避坑指南!解决Navicat运行SQL成功但没有表的问题

在运行转储的SQL文件时,成功运行,试了很多办法都不显示出表。原因:当从一个高版本的 MySQL 数据库导入数据到低版本的 MySQL 数据库时,可能会遇到兼容性问题。因为高版本的 MySQL 可能支持 utf8mb4_0900_ai_ci,而低版本…

在 Elasticsearch 中使用用户行为分析:使用 UBI 和 search-ui 创建一个应用程序

作者:来自 Elastic Eduard Martin 及 Alexander Dvila 通过一个实际示例学习如何在 Elasticsearch 中使用 UBI。我们将创建一个在搜索和点击结果时生成 UBI 事件的应用程序。 想要获得 Elastic 认证吗?看看下一次 Elasticsearch Engineer 培训什么时候开…