【王树森推荐系统】推荐系统涨指标的方法04:多样性

涨指标的方法有哪些?

  • 改进召回模型,添加新的召回模型
  • 改进粗排和精排模型
  • 提升召回,粗排,精排的多样性
  • 特殊对待新用户吗,低活用户等特殊人群
  • 利用关注,转发,评论这三种交互行为

排序的多样性

精排多样性

  • 精排阶段,结合兴趣分数和多样性分数对物品 iii 排序
    • sis_isi:兴趣分数,即融合点击率等多个预估指标
    • did_idi:多样性分数,即物品 iii 与已经选中的物品的差异
    • si+dis_i+d_isi+di 对物品做排序,这个排序几乎决定了最终用户看到的结果
  • 常用 MRR,DPP 等方法计算多样性分数,精排使用滑动窗口,粗排不使用滑动窗口
    • 精排决定最终的曝光,曝光页面上邻近的物品相似度应该小,所以计算精排多样性要使用滑动窗口,保证同一个滑动窗口内的物品要有足够的差异
    • 粗排要考虑整体的多样性,而非一个滑动窗口中的多样性
  • 除了多样性分数,精排还使用打散策略增加多样性
    • 类目:当前选中物品 iii,之后 555 个位置不允许跟 iii 的二级类目相同
    • 多模态:事先计算物品多模态内容向量表征,讲全库物品聚为 100010001000 类;在精排阶段,如果当前选中物品 iii,之后 10 个位置不允许跟 iii 同属一个聚类。道理是同一类物品的图片和文字应该相似,需要打散

粗排多样性

  • 粗排给 500050005000 个物品打分,选出 500500500 个物品送入精排
  • 提升粗排和精排多样性都可以提升推荐系统的核心指标
  • 根据 sis_isi 对 5000 个物品排序,分数最高的 200 个物品送入精排。之类暂且不考虑多样性分数,将用户最感兴趣的物品送入精排
  • 对于剩余的 4800 个物品,对每个物品 iii 计算兴趣分数 sis_isi 和多样性分数 did_idi
  • 根据 si+dis_i+d_isi+di 对剩余 4800 个物品排序,分数最高的 300 个物品送入精排。这 300 个既是用户感兴趣的,也保证了差异

召回的多样性

双塔模型:添加噪声

  • 双塔模型是最重要的召回模型
  • 用户塔将用户特征作为输入,输出用户的向量表征;然后做 ANN 检索,召回向量相似度高的物品
  • 线上做召回时(在计算出用户向量后,做 ANN 检索之前),往用户向量中添加随机噪声
  • 用户的兴趣越窄(比如用户最近交互的 nnn 个物品只覆盖少数几个类目),则添加的噪声越强
  • 添加噪声使得召回的物品更多样,可以提升推荐系统核心指标。按道理来说添加噪声会使得召回不准,但是很神奇的是可以涨指标

双塔模型:抽样用户行为序列

  • 用户最近交互的 nnn 个物品(用户行为序列)是用户塔的输入
  • 保留最近的 rrr 个物品 (r<<n)(r<<n)(r<<n)
  • 从剩余的 n−rn-rnr 个物品中随机抽样 ttt 个物品 (t<<n)(t<<n)(t<<n),可以是均匀抽样,也可以用非均匀抽样让类目平衡
  • 将得到的 r+tr+tr+t 个物品作为用户行为序列,而不是用全部 nnn 个物品
    • 推荐系统的用户每天可能会刷好几十次,每次都会做召回和排序。每次做召回的时候都会对用户随机行为序列做抽样,这样会让双塔召回的结果有随机性,哪怕同时做两次召回,召回的结果也会有较大差异,即多样性提升
  • 抽样用户行为为什么能涨指标?
    • 一方面:注入随机性,召回结果更多样化
    • 另一方面,nnn 可以非常大,可以利用到用户很久之前的兴趣

U2I2I:抽样用户行为序列

  • U2I2I(user → item → item) 中的第一个 item 是指用户最近交互的 nnn 个物品之一,在 U2I2I 中叫做种子物品
  • nnn 个物品覆盖的类目数教少,且类目不平衡
    • 系统总共有 200 个类目,某用户的 nnn 个物品只能覆盖 15 个类目
    • 足球类目的物品有 0.4n0.4n0.4n 个,电视剧类目的物品有 0.2n0.2n0.2n 个,其余类目的物品数均少于 0.05n0.05n0.05n 个。如果只用 nnn 个种子物品,那么大部分肯定都会召回到足球和电视剧,多样性很差
  • 做非均匀随机抽样,从 nnn 个物品中选出 ttt 个,让类目平衡(想法和效果与用户行为序列抽样类似)
  • 用抽样得到的 ttt 个物品(代替原本的 nnn 个物品)作为 U2I2I 的种子物品
  • 一方面,使类目更平衡,多样性更好。另一个方面,nnn 可以更大,覆盖的类目更多

探索流量

  • 每个用户曝光的物品中有 2%2\%2% 是非个性化的,用作兴趣探索
  • 维护一个精选内容池,其中物品均为交互率指标高的优质物品(内容池可以分人群,比如 30 到 40 岁男性内容池)
    • 既然没有了个性化,就要提高物品质量来吸引用户。用高质量弥补多样性
  • 从精选内容池中随机抽样几个物品,跳过排序,直接插入最终排序结果。
    • 这些物品没有经过用户的交互,大概率会被淘汰掉,所以直接插入
  • 兴趣探索在短期内负向影响核心指标,但长期会产生正向指标
    • 做非个性化的推荐用户大概率不感兴趣,点击偏低,用户不看,2%2\%2% 的流量大部分会被浪费掉。
    • 兴趣探索长期是有利的,可以发掘更多兴趣点更好提升用户留存

总结

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/915147.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/915147.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1. Spring AI概述

一、前言 Spring AI 是由 Spring 团队推出的开源项目&#xff0c;旨在为 Java 开发者提供简洁、一致的 Spring 风格开发体验&#xff0c;用于构建基于生成式人工智能&#xff08;GenAI&#xff09;和大型语言模型&#xff08;LLM&#xff09;的应用程序。它通过标准化抽象层简…

[每日随题10] DP - 重链剖分 - 状压DP

整体概述 难度&#xff1a;1600 →\rightarrow→ 2200 →\rightarrow→ 2600 P6005 [USACO20JAN] Time is Mooney G 标签&#xff1a;DP 前置知识&#xff1a;链式前向星 难度&#xff1a;绿 1600 题目描述&#xff1a; 输入格式&#xff1a; 输出格式&#xff1a; 样例输…

【Ubuntu22.04】repo安装方法

背景 repo是Google开发的用于基于git管理Android版本库的一个工具&#xff0c;管理多个Git仓库的工具&#xff0c;它可以帮助您在一个代码库中管理多个Git仓库的代码。其在鸿蒙操作系统中大量使用。下面我们就介绍repo在wsl中的安装部署。 安装方法 使用中国科技大学资源 脚本i…

Vue3的definePros和defineEmits

在 Vue 3 中&#xff0c;defineProps 和 defineEmits 是组合式 API 中用于定义组件的 props 和 事件 的方法&#xff0c;提供了一种更简洁和明确的方式来管理组件的输入和输出。它们属于 Composition API 的一部分&#xff0c;在 Vue 2 中通常使用 props 和 $emit 来实现。1. d…

【华为机试】122. 买卖股票的最佳时机 II

文章目录122. 买卖股票的最佳时机 II描述示例 1示例 2示例 3提示解题思路核心观察关键洞察算法实现方法1&#xff1a;贪心算法&#xff08;推荐&#xff09;方法2&#xff1a;动态规划方法3&#xff1a;动态规划&#xff08;空间优化&#xff09;方法4&#xff1a;波峰波谷法算…

Spring MVC @RequestParam注解全解析

RequestParam 注解详解 RequestParam 是 Spring MVC 中最常用的注解之一&#xff0c;用于从 HTTP 请求中提取查询参数&#xff08;Query String&#xff09;或表单数据。它主要处理 application/x-www-form-urlencoded 类型的请求&#xff08;如 GET 请求或 POST 表单提交&…

从零掌握XML与DTD实体:原理、XXE漏洞攻防

本文仅用于技术研究&#xff0c;禁止用于非法用途。 Author:枷锁 文章目录一、XML基础1. 什么是XML&#xff1f;2. XML语法规则3. 数据类型二、DTD1. 认识DTD2. 声明DTD3. DTD实体4. 如何防御XXE攻击&#xff1f;5. 总结一、XML基础 1. 什么是XML&#xff1f; XML &#xff1…

.NET 8 Release Candidate 1 (RC1)现已发布,包括许多针对ASP.NET Core的重要改进!

.NET 8 Release Candidate 1 (RC1)发布&#xff1a;ASP.NET Core重大改进来袭&#xff01; 近日&#xff0c;.NET 8 Release Candidate 1 (RC1)正式发布&#xff0c;这是在今年晚些时候计划发布的最终 .NET 8 版本之前的两个候选版本中的第一个。此版本包含了大部分计划中的功…

Jenkins pipeline 部署docker通用模板

Jenkinsfile: Docker的NETWORK_NAME不要使用bridge默认网络&#xff0c;要使用自定义的网络如test默认 bridge 网络&#xff1a;容器间不能用名字互相访问&#xff0c;只能用 IP。自定义网络&#xff1a;容器间可以用名字互相访问&#xff0c;Docker 自动做了 DNS 解析。pipeli…

【每日算法】专题十五_BFS 解决 FloodFill 算法

1. 算法思想 Flood Fill 问题的核心需求 给定一个二维网格&#xff08;如像素矩阵&#xff09;、一个起始坐标 (x, y) 和目标颜色 newColor&#xff0c;要求&#xff1a; 将起始点 (x, y) 的颜色替换为 newColor。递归地将所有与起始点相邻&#xff08;上下左右&#xff09; …

ESLint 完整功能介绍和完整使用示例演示

以下是ESLint的完整功能介绍和完整使用示例演示&#xff1a; ESLint 完整功能介绍 一、核心功能静态代码分析&#xff1a; 通过解析JavaScript/TypeScript代码为抽象语法树&#xff08;AST&#xff09;&#xff0c;识别语法错误、潜在问题&#xff08;如未定义变量、未使用变量…

解决问题七大步骤

发现问题后寻找解决方案的流程可以细化为 7个核心步骤&#xff0c;每个步骤包含具体措施、信息源和关键技巧&#xff0c;形成“从自查到验证、从独立解决到寻求帮助”的完整闭环。以下是完善后的流程&#xff1a; 一、明确问题与初步自查&#xff08;前提&#xff1a;减少无效搜…

思维链(CoT)技术全景:原理、实现与前沿应用深度解析

一、核心概念与原理 定义与起源 CoT 是一种引导大语言模型&#xff08;LLM&#xff09;显式生成中间推理步骤的技术&#xff0c;通过模拟人类逐步解决问题的过程&#xff0c;提升复杂任务&#xff08;如数学证明、多步逻辑推理&#xff09;的准确性。该概念由 Google Brain 团…

实验-华为综合

华为综合实验 一 实验拓扑二 实验配置交换机2 vlan batch 10 20 int e0/0/2 port link-type access port default vlan 10 int e0/0/1 port link-type access port default vlan 20 int e0/0/3 port link-type trunk port trunk allow-pass vlan alltelnet交换机3 链路类型配置…

Matlab打开慢、加载慢的解决办法

安装完毕后直接打开会非常慢&#xff0c;而且打开了之后还得加载很久才能运行 解决办法如下&#xff1a; 1.找到路径“D:\Program Files\Polyspace\R2020a\licenses”&#xff08;我是把matlab安装在D盘了&#xff0c;如果是其他盘修改路径即可&#xff09;&#xff0c;该路径记…

混沌趋势指标原理及交易展示

1. 引言在金融市场交易中&#xff0c;尤其是加密货币合约交易&#xff0c;趋势跟踪是最主流的策略之一。然而&#xff0c;传统趋势指标如均线、MACD等存在明显的滞后性&#xff0c;往往在趋势确立后才发出信号&#xff0c;导致交易者错失最佳入场时机。更糟糕的是&#xff0c;市…

Java面试宝典:Maven

一、Maven的本质与核心价值 项目管理革命 POM驱动:通过pom.xml文件定义项目结构、依赖、构建规则,实现标准化管理()。示例配置: <dependencies> <dependency> <groupId>org.springframework

可靠消息最终一致性分布式事务解决方案

之前文章写过主流的一些 分布式事务的解决方案&#xff0c;但其实工作中很少有一些高并发的业务中去使用这些方案&#xff0c;因为对于高并发的场景来说&#xff0c;引入这些方案的性能损耗太大&#xff0c;且对系统事务侵入性太强影响系统稳定性。 所以在高并发的业务中&…

ISIS基础

拓扑计算方式 模型 支持的网络 支持的地址OSPF SPF TCP/IP IP网络 IPv4地址ISIS SPF OSI CLNP网络 NSAP地址集成ISIS SPF TCP/IP IP网络 NSAP地址&#xff0c;但可以支持IPv4地址12. …

基于ASP.NET+SQL Server实现(Web)排球赛事网站

排球赛事网的设计与实现摘要随着近几年来计算机技术、网络技术及相应软件技术的迅猛发展&#xff0c;人们的生活已越来越离不开计算机了&#xff0c;而且总是要花费很多时间在它上面。一直以来&#xff0c;排球作为一项大众喜爱的运动&#xff0c;得到广泛传播。随着各项排球赛…