辛普森悖论

辛普森悖论

第一步:概念拆解

想象你在比较两个班级的考试成绩:

  • 第一天​:实验组(1个学生考了90分),对照组(99个学生平均考了80分)
  • 第二天​:实验组(50个学生平均考了70分),对照组(50个学生平均考了60分)
    如果简单把两天的分数加起来算总平均:
  • 实验组:(90 + 70×50)/51 ≈ 70.4分
  • 对照组:(80×99 + 60×50)/149 ≈ 72.3分
    奇怪的事情发生了​:明明实验组每天都比对照组考得好,但合起来看反而更差!

第二步:关键矛盾点

就像比较两个餐厅的满意度:

  • 工作日​:高档餐厅(客人少但评分高),快餐店(客人多评分略低)
  • 周末​:两家客流量相同,高档餐厅评分仍更高
    但如果忽略时间维度,直接合并数据:
    快餐店会因为工作日的大量客流拉高总平均分,​掩盖了高档餐厅每天的真实优势

第三步:统计学本质

辛普森悖论的核心是混淆变量(这里是"日期"):

  1. 第一天实验组只有1%流量,这部分用户可能是高质量种子用户(转化率2.3%极高)
  2. 第二天50%流量包含大量普通用户(转化率降至1.2%)
  3. 合并时,实验组数据被第二天的大量普通用户稀释,而对照组数据仍被第一天的高权重优质用户支撑

第四步:解决方案

避免错误的三步法:

  1. 分层比较​:分别看第一天/第二天的结果(保持流量比例一致)
  2. 加权计算​:按天数分配权重(如每天算50%贡献)
  3. 因果图分析​:画流程图确认"日期"是否影响流量分配与转化率的关系

就像比较两种药物的疗效时,必须考虑试验阶段的重症/轻症患者比例变化,否则会得出"救人更多的药反而总死亡率更高"的荒谬结论。


内容类AB实验案例分析

看一个内容类AB实验的例子,某资讯内容产品在列表包括AB两类内容,某实验做了A类内容的提权,也就是提升了A类内容的曝光占比,实验关心的核心指标是点击率

1)实验提升了整体的点击率吗?

2)通过数据推测实验为什么会出现A、B的点击率都下降的现象。

3)这种提升点击率的方法可能有什么潜在的问题?


第一步:用买菜比喻理解基础概念

想象菜市场有两个摊位:

  • 摊位A​(精品蔬菜):每天摆10斤能卖9斤(点击率90%)
  • 摊位B​(普通蔬菜):每天摆100斤能卖70斤(点击率70%)

某天市场经理决定:

  • 给摊位A多分配货架​(从10斤→30斤)
  • 摊位B被迫减少到80斤

结果发现:

  • 摊位A销量变成25斤(点击率降到83%)
  • 摊位B销量变成55斤(点击率降到68%)
  • 总销售额却从79斤增加到80斤!

第二步:拆解三个问题的本质

问题1:整体点击率提升了吗?​

  • 对照组:A(9.2%) + B(7.4%) → 加权平均=(83+192)/(900+2600)=7.9%
  • 实验组:A(8.7%) + B(6.9%) → 加权平均=(234+55)/(2700+800)=8.3%
    → ​确实提升了0.4%​,就像菜市场总销售额增加

问题2:为什么AB各自点击率都降?​

  • 对A内容​:曝光量从900→2700(3倍!)

    • 用户看到太多同类内容产生审美疲劳(如同连续吃3天精品菜也会腻)
    • 新曝光的用户可能不是A的理想受众(像把精品菜卖给只想买便宜菜的人)
  • 对B内容​:曝光量从2600→800(被挤压)

    • 用户注意力被更多A内容吸引(像顾客都被精品菜摊位的促销吸引)
    • 剩余曝光可能给了B的非目标用户(像只有匆匆路过的人才会买剩下的普通菜)

问题3:潜在问题是什么?​

  1. 数据假象​:就像菜市场总销售额增加,但:

    • 可能牺牲了老顾客体验(天天被迫看同类内容)
    • 新用户可能因内容单一而流失
  2. 生态破坏​:

    • 如果A是标题党内容,长期会降低内容质量
    • B类优质内容得不到曝光(如同菜市场再也买不到小众但健康的食材)
  3. 指标陷阱​:

    • 点击率提升但阅读时长可能下降
    • 用户满意度等隐性指标无法体现

第三步:用控制变量法看本质

如果把实验组数据按对照组比例还原:

  • 假设保持A:B=900:2600的比例
  • 实验组A应有289×(900/3500)=74.3点击(实际234,严重偏离)
  • 实验组B应有289×(2600/3500)=214.7点击(实际55,严重偏离)
    → 证明流量分配变化才是核心影响因素

第四步:给产品经理的建议

  1. 分层实验​:对不同用户群体分别测试(如新用户/老用户)
  2. 动态加权​:根据用户偏好实时调整AB比例
  3. 多指标监控​:配合阅读深度、分享率等综合评估
  4. 内容质量检测​:建立A类内容的"标题党指数"预警机制

就像调整菜市场摊位不能只看总销售额,还要考虑顾客复购率、摊位多样性、菜品质量等。这个案例生动展示了:​局部最优≠全局最优,需要警惕"提升一个指标,毁掉整个生态"的陷阱。

  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/915239.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/915239.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

有效的括号数据结构oj题(力口20)

目录 目录 题目描述 题目分析解析 解决代码 写题感悟: 题目描述 还有实例 题目分析解析 对于这个题目,我们首先有效字符串需要满足什么,第一个左右括号使用相同类型的括号,这好理解,无非就是小括号和小括号大括号…

Mock 单元测试

作者:小凯 沉淀、分享、成长,让自己和他人都能有所收获! 本文的宗旨在于通过简单干净实践的方式教会读者,如何使用 Mock (opens new window)进行工程的单元测试,以便于验证系统中的独立模块功能的健壮性。 从整个工程所…

MySQL 深度性能优化配置实战指南

🔧 一、硬件与系统层优化:夯实性能基石 ​​硬件选型策略​​ ​​CPU​​:读密集型场景选择多核CPU(如32核);写密集型场景选择高主频CPU(如3.5GHz+)。 ​​内存​​:建议≥64GB,​​缓冲池命中率≥99%​​ 是性能关键指标。 ​​存储​​:​​必用NVMe SSD​​,I…

Visual Studio Code(VSCode)中设置中文界面

在VS Code中设置中文界面主要有两种方法:通过扩展市场安装中文语言包或通过命令面板直接切换语言。‌方法一:通过扩展市场安装中文语言包‌打开VS Code,点击左侧活动栏的"扩展"图标(或按CtrlShiftX)。在搜索…

叉车机器人如何实现托盘精准定位?这项核心技术的原理和应用是什么?

随着智慧物流和智能制造的加速发展,智能化转型成为提升效率、降低成本的关键路径,叉车机器人(AGV/AMR叉车)在仓储、制造、零售等行业中的应用日益广泛。 其中,托盘定位技术是实现其高效、稳定作业的核心环节之一&…

NO.6数据结构树|二叉树|满二叉树|完全二叉树|顺序存储|链式存储|先序|中序|后序|层序遍历

树与二叉树的基本知识 树的术语结点: 树中的每个元素都称为结点, 例如上图中的 A,B,C…根结点: 位于树顶部的结点, 它没有父结点,比如 A 结点。父结点: 若一个结点有子结点, 那么这个结点就称为其子结点的父…

数据集下载网站

名称简介链接Kaggle世界上最大的数据科学竞赛平台之一,有大量结构化、图像、文本等数据集可直接下载✅支持一键下载、APIPapers with Code可按任务(如图像分类、文本生成等)查找模型与数据集,标注 SOTA✅与论文强关联Hugging Face…

Tomcat 生产 40 条军规:容量规划、调优、故障演练与安全加固

(一)容量规划 6 条 军规 1:线程池公式 maxThreads ((并发峰值 平均 RT) / 1000) 冗余 20 %; 踩坑:压测 2000 QPS、RT 200 ms,理论 maxThreads500,线上却设 150 导致排队。军规 2:…

深入解析 Amazon Q:AWS 推出的企业级生成式 AI 助手

在人工智能助手竞争激烈的当下,AWS 重磅推出的 Amazon Q 凭借其强大的企业级整合能力,正成为开发者提升生产力的新利器。随着生成式 AI 技术席卷全球,各大云厂商纷纷布局智能助手领域。在 2023 年 re:Invent 大会上,AWS 正式推出了…

物流自动化WMS和WCS技术文档

导语大家好,我是社长,老K。专注分享智能制造和智能仓储物流等内容。欢迎大家使用我们的仓储物流技术AI智能体。新书《智能物流系统构成与技术实践》新书《智能仓储项目出海-英语手册,必备!》完整版文件和更多学习资料,…

Web3.0 实战项目、简历打造、精准投递+面试准备

目录 一、获取真实企业级 Web3.0 项目的 5 种方式 1. 参与开源项目(推荐指数:⭐⭐⭐⭐⭐) 2. 参与黑客松(Hackathon) 3. 远程实习 & DAO 协作项目(兼职也可) 4. Web3 Startup 实战项目合…

pymongo库:简易方式存取数据

文档 基础使用 前提:开发机器已安装mongo配置环境,已启动服务。 macOS启动服务:brew services start mongodb-community8.0 macOS停止服务:brew services stop mongodb-community8.0安装:python3 -m pip install pym…

Java 线程池与多线程并发编程实战全解析:从异步任务调度到设计模式落地,200 + 核心技巧、避坑指南与业务场景结合

多线程编程在现代软件开发中扮演着至关重要的角色,它能够显著提升应用程序的性能和响应能力。通过合理利用异步线程、多线程以及线程池等技术,我们可以更高效地处理复杂任务,优化系统资源的使用。同时,在实际应用中,我…

gitee 分支切换

ssh-keygen -t rsa -C "pengchengzhangcplaser.com.cn" ssh -T gitgitee.comgit remote add origin 仓库地址git config --global user.email "youexample.com"git config --global user.name "Your Name"# 1. 更新远程信息 git fetch origin# …

Vue3生命周期函数

在 Vue 3 中,生命周期钩子函数是指组件从创建到销毁的整个过程中,Vue 自动调用的一些特定函数。它们让你能够在组件的不同阶段执行一些自定义操作。Vue 3 提供了组合式 API 和选项式 API 两种方式来定义生命周期钩子。1. onBeforeMount (组合式 API)作用…

基于SEP3203微处理器的嵌入式最小硬件系统设计

目录 1 引言 2 嵌入式最小硬件系统 3 SEP3202简述 4 最小系统硬件的选择和单元电路的设计 4.1 电源电路 4.2 晶振电路 4.3 复位及唤醒电路 4.5 存储器 4.5.1 FLASH存储 4.5.2 SDRAM 4.6 串行接口电路设计 4.7 JTAG模块 4.8 扩展功能(LED) …

【开源软件推荐】 SmartSub,一个可以快速识别视频/音频字幕的工具

背景介绍 我就说Github上面能找到好东西吧 事情是这样的 我最近在用PC端的剪映剪辑视频 需要用到它的语音转字幕功能 转完之后,导出的时候 发现 赫然有一项字幕识别的会员权益 我寻思看看什么价格 不贵的话就充了 好家伙,这不看不知道&#xff…

自动驾驶仿真领域常见开源工具

自动驾驶仿真领域常见开源工具1、目录1.1 自动驾驶仿真领域常见开源2、地图&场景2.1、场景播放器-Esmini4、被测对象-智驾软件4.1、Autoware4.4、端到端模型-VAD4.5、端到端模型-UniAD4.6、端到端模型-ThinkTwice4.7、端到端模型-TCP5、评价方法5.1、Leaderboard5.2、Bench…

GPU算力租用平台推荐,价格便宜且有羊毛薅,最低只要0.49/小时!

1.趋动云,这是我近期一直在用的,使用体验还不错,推荐给大家 网址:https://platform.virtaicloud.com/gemini_web/auth/register?inviteCode5f74065eac6d8867eac5c82194e2683a 是否选择一个算力平台我认为有几点需要考虑&#xff…

python学智能算法(二十五)|SVM-拉格朗日乘数法理解

引言 前序学习进程中,已经对最佳超平面的求解有了一定认识。 刚好在此梳理一下: 函数距离 首先有函数距离F,也可以称为函数间隔F: Fmin⁡i1...myi(w⋅xib)F \min_{i1...m}y_{i}(w \cdot x_{i}b)Fi1...mmin​yi​(w⋅xi​b) 几何距离 然后…