李宏毅2025《机器学习》-第九讲:大型语言模型评测的困境与“古德哈特定律”**

摘要:
随着大型语言模型(LLM)的推理能力日益增强,如何公平、准确地评测其“智力”水平,成了一个极其棘手的问题。本文基于李宏毅教授的最新课程,深入探讨了当前LLM评测面临的困境。文章首先揭示了标准数学和编程测试背后可能存在的“数据污染”问题,即模型可能是在“背答案”而非真正地推理。随后,文章考察了两种试图规避此问题的先进评测方案:以抽象智力测验为核心的ARC-AGI,以及以全民投票为机制的Chatbot Arena。然而,即便是这些方案,也分别面临着被“应试技巧”攻破和被“人类风格偏好”干扰的风险。最终,文章以“古德哈特定律”和“眼镜蛇效应”为警示,引出对当前评测体系的反思:当评测指标本身成为模型优化的唯一目标时,我们是否正在偏离打造真正智能的初衷?


1. 数学题的“假象”:是真推理,还是“背答案”?

当前,评测一个LLM推理能力的主流方法简单而粗暴:直接用高难度的数学题(如AIME数学竞赛题)和编程题来“考试”。模型答对了,就被认为具备强大的推理能力。各大顶尖AI公司的技术报告,无一不将此类榜单的成绩作为展示其模型实力的核心证据。

但一个根本性的疑问始终存在:模型是真的在一步步逻辑推理,还是仅仅因为它在海量的互联网训练数据中“恰好”见过这道题或极其相似的题目,然后“装模作样”地复现出记忆中的答案?

1.1 “换汤不换药”的测试:当模型遭遇小改动

为了验证这一疑虑,研究者们进行了一系列精巧的实验。一篇论文针对著名的GSM8K数学应用题数据集进行了“微扰”测试,在完全不改变题目难度和解题逻辑的前提下,做出一些细微修改:

  • 替换人名: 将题目中的“Sophia”换成其他名字。
  • 替换无关词汇: 将“侄子”换成其他亲属称谓。
  • 替换数字: 改变题目中的具体数值。

结果显示,绝大多数模型在面对这些“换汤不换药”的题目时,正确率都出现了不同程度的下降。这一现象有力地暗示,模型在训练中确实对特定的题目模式产生了“记忆”,而非完全依赖纯粹的逻辑推理。另一项研究甚至发现,仅仅是将题目中的句子顺序颠倒(在不影响语义理解的情况下),同样会导致模型的正确率下滑。

1.2 “污染”无法根除:数据清洗的局限性

有人可能会提议,解决方案很简单:只要在训练数据中,把所有已知的测试题都清洗掉不就行了?然而,这种“数据去污”(Decontamination)的方法在实践中几乎不可能彻底执行。

试想,有人可能将GSM8K的题目翻译成蒙古文发布在某个小众论坛上,而这个内容恰好被模型的网络爬虫抓取并用于训练。由于顶尖LLM已具备强大的跨语言理解能力,即便它看到的是蒙古文,也相当于“偷看”了这道题。我们不可能将所有测试题翻译成全世界的所有语言,再去进行地毯式的排查。因此,我们永远无法100%确定,模型在接受测试时,是否早已对题目“了然于胸”。

2. 寻找“纯粹”的试金石:从抽象推理到人类偏好

鉴于传统题库的不可靠性,学术界和工业界开始探索更“纯粹”、更难被“污染”的评测方法。

2.1 抽象推理的堡垒:ARC-AGI的挑战与代价

ARC-AGI(Abstraction and Reasoning Corpus - Artificial General Intelligence)是一个旨在测量“纯粹智能”的基准测试,由Keras框架的作者François Chollet创建。

  • 形式: 它由一系列抽象的图形智力测验题组成。系统会给出几组“输入-输出”的范例,要求模型观察并推断出其中的转换规则,然后应用于一个新的输入图形上。
  • 优势: 这类题目高度抽象,在互联网上几乎不存在现成的答案,被认为能有效避免“背题”问题。ARC-AGI自2019年问世以来,AI模型的性能提升一直非常缓慢,不像其他基准测试在短时间内就被“刷爆”,因此被视为衡量真正推理能力的“硬骨头”。
  • 突破与代价: 近期,OpenAI的o1系列模型在ARC-AGI上取得了惊人的突破,其最高性能甚至超越了普通人类,接近顶尖理工科学生的水平。然而,这份成绩单的背后是天文数字般的计算成本——据报告披露,模型回答一题就需要耗费相当于1000美元的算力。
  • 能否被“攻破”? 尽管如此,李宏毅教授认为,即便是ARC-AGI也并非牢不可破。既然题目的“范式”是已知的,就完全有可能通过程序自动生成数千万道类似的题目,对模型进行专项“应试训练”,从而“破解”这个测试。
2.2 全民公投的舞台:Chatbot Arena的机制与偏见

既然任何固定的题库都有被“应试”攻破的风险,那么能否让全世界的人类用户来充当“考官”呢?这就是Chatbot Arena背后的思想。

  • 机制: 用户访问平台后,系统会随机提供两个匿名的模型(模型A和模型B)。用户向它们提出同一个问题,然后根据回答的质量,投票选出自己更喜欢的一个。
  • ELO评分系统: 平台利用这些成对的比赛结果,为每个模型计算出一个类似国际象棋的ELO等级分,从而生成一个动态的、被广泛引用的LLM排行榜。

这种“全民公投”的方式,因其题目的开放性和不可预测性,被认为很难被传统方法“攻击”。但它真的无懈可击吗?

3. 当评测本身被“攻击”:风格、偏见与ELO修正模型

事实证明,Chatbot Arena可以被另一种方式“攻击”——利用人类固有的认知偏见

3.1 人类的“偏心”:表情包和加粗体的影响力

社区中流传着一些“传说”:在Chatbot Arena上,如果你的模型回答更长、更多地使用Emoji、或更善于运用加粗、项目符号等排版格式,它就更容易获得用户的青睐。

这背后是一个深刻的洞察:当一个普通人评判一个远比自己聪明的AI时,他往往无法判断其回答内容的深层正确性。这就像听一个诺贝尔奖得主演讲,你无法验证他的理论,只能根据一些表面特征来评价,比如“他讲话真风趣”、“PPT做得真漂亮”。同理,用户在无法辨别两个AI答案的优劣时,自然会倾向于那个“风格”更讨喜的。

3.2 剥离风格滤镜:修正ELO模型如何还原“真实战力”

Chatbot Arena的运营方也意识到了这个问题,并开发出了一套更复杂的修正版ELO评分模型来剥离风格偏见。

  • 标准ELO模型: 模型的胜率只取决于双方的“战力”(βiβj)之差。
  • 修正ELO模型: 在“战力”之外,引入了一个偏见项β0。这个偏见项是各种风格因素的加权总和,例如:
    β0 = γ1 * (长度差异) + γ2 * (Emoji数量差异) + ...
  • 通过对海量比赛数据进行统计回归,系统可以计算出每个风格因素的影响权重(γ值)。如果在最终计算排名时,将这些由风格造成的“偏心分”剔除,就能得到一个更接近模型“真实战力”的排名。

修正后的结果令人震惊:许多模型的排名发生了巨大变化。例如,以能力强大但“说话无聊”(很少用Emoji)著称的Claude系列模型,在剔除风格影响后,其排名大幅跃升。这证明,在未经修正的评测中,模型的“口才”和“排版技巧”在很大程度上影响了其最终得分。

4. 总结:“眼镜蛇效应”的警示——我们究竟在评测什么?

从数学题的“数据污染”,到ARC-AGI的“应试”风险,再到Chatbot Arena的“风格偏见”,我们发现,寻找一个完美、绝对公平的LLM评测指标,或许是一个不可能完成的任务。

这引出了经济学中一个著名的定律——古德哈特定律(Goodhart’s Law):

“当一项指标成为目标时,它就不再是一个好的指标。”

一旦所有AI公司都将目标设定为“在某个特定排行榜上取得高分”时,它们努力的方向就会从“打造更通用的智能”,异化为“研究如何在这个特定测试中拿高分”。

这个现象可以用一个更广为人知的故事来诠释——“眼镜蛇效应”

英国殖民时期的印度,政府为解决蛇患,颁布法令奖励民众上交眼镜蛇。起初效果显著,但很快,人们发现了一条“致富之路”:自己在家中大规模养殖眼镜蛇,然后拿去换取赏金。最终,该政策不仅没能消灭蛇患,反而导致眼镜蛇数量激增。

今天我们对LLM排行榜的狂热追逐,又何尝不是在“悬赏眼镜蛇”呢?过分在意一个或几个评测指标,只会让模型的进化走向“应试化”的歧途。这堂课的最终结语或许是:我们需要从对排名的执念中跳脱出来,回归到对智能本质的探索,否则,我们所有的努力都可能被精心设计的评测系统所“异化”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/93572.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/93572.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot集成Chaos Monkey:构建高韧性系统的故障注入实战指南

Spring Boot集成Chaos Monkey:构建高韧性系统的故障注入实战指南一、Chaos Engineering核心原理1.1 混沌工程价值矩阵1.2 Chaos Monkey核心攻击类型二、Spring Boot集成Chaos Monkey2.1 基础集成配置依赖引入配置文件 - application.yml2.2 高级攻击策略配置自定义攻…

AtCoder Beginner Contest 416(ABCDE)

A - Vacation Validation 翻译&#xff1a; 给你一个长度为 N 的字符串 S&#xff0c;它由 o 和 x 以及整数 L 和 R 组成。 请判断 S 中从第 L 个字符到第 R 个字符的所有字符是否都是 o。 思路&#xff1a; &#xff08;模拟&#xff09; 实现&#xff1a; #include<bits…

【AlphaFold3】网络架构篇(2)|Input Embedding 对输入进行特征嵌入

博主简介&#xff1a;努力学习的22级计算机科学与技术本科生一枚&#x1f338;博主主页&#xff1a; Yaoyao2024往期回顾&#xff1a;【AlphaFold3】网络架构篇&#xff08;1&#xff09;|概览预测算法每日一言&#x1f33c;: 去留无意&#xff0c;闲看庭前花开花落&#xff1b…

秋招Day20 - 微服务 - 概念

什么是微服务&#xff1f;将一个大型的单体项目分割成一个个可以独立开发和部署的小服务&#xff0c;服务之间松耦合&#xff0c;可以通过轻量级通信机制&#xff08;比如HTTP&#xff09;相互协作微服务带来了哪些挑战&#xff1f; 介绍一下一下Dubbo&#xff1f;Dubbo是一个高…

PyTorch 生态四件套:从图片、视频到文本、语音的“开箱即用”实践笔记

写在前面 当我们谈论 PyTorch 时&#xff0c;我们首先想到的是 torch.Tensor、nn.Module 和强大的自动求导系统。但 PyTorch 的力量远不止于此。为了让开发者能更高效地处理图像、文本、音频、视频等真实世界的复杂数据&#xff0c;PyTorch 建立了一个强大的官方生态系统。本文…

2023 年 NOI 最后一题题解

问题描述2023 年 NOI 最后一题是一道融合图论与动态规划的综合优化问题&#xff0c;聚焦于带时间窗约束的多路径规划。题目具体要求如下&#xff1a;给定一个有向图&#xff0c;其中节点代表城市&#xff0c;边代表交通路线。每条边具有三个属性&#xff1a;行驶时间、基础费用…

Android补全计划 TextView设置文字不同字体和颜色

1 富文本 1 java中动态加载文本 颜色 String strMsg "今天<font color\"#00ff00\">天气不错</font>"; tv_msg.setText(Html.fromHtml(strMsg));字体和颜色 String str2 "今天<font color\"#00ff00\"><big>天气不…

C语言:详解单链表与例题

C语言&#xff1a;详解单链表与例题 1.单链表的实现 2.例题&#xff1a;移除链表元素 1.单链表的实现 链表根据带头或不带头、单向或双向、循环或不循环分类为8种&#xff0c;最常用的是单链表和双向链表&#xff0c;单链表是 不带头单向不循环 链表。 链表由节点组成&#xff…

从0开始学习R语言--Day62--RE插补

对于会有多次测量值的数据&#xff0c;用普通的回归去插补&#xff0c;往往会忽略掉数据个体本身的特点&#xff0c;毕竟多次的测量值其实就代表了数据个体的不稳定性&#xff0c;存在额外的干扰。而RE的插补原理是结合个体本身的随机效应和群体的固体效应再加上截距进行插补的…

RESTful API开发指南:使用Spring Boot构建企业级接口

目录 1. 引言2. RESTful API基础概念3. Spring Boot环境搭建4. 项目结构设计5. 核心组件开发6. 数据库集成7. 安全认证8. 异常处理9. API文档生成10. 测试策略11. 部署与监控12. 最佳实践 1. 引言 在现代软件开发中&#xff0c;RESTful API已成为构建分布式系统和微服务架构…

从 Print 到 Debug:用 PyCharm 掌控复杂程序的调试之道

目录摘要调试工具窗口会话工具栏调试工具栏单步工具栏调试器选项卡调用栈帧&#xff08;Frames&#xff09;变量&#xff08;Variables&#xff09;&#x1f4a1; 表达式求值区域&#xff08;Evaluate expression field&#xff09;&#x1f5b1;️ 右键菜单&#xff08;Contex…

用于前列腺活检分级的分层视觉 Transformer:迈向弥合泛化差距|文献速递-医学影像算法文献分享

Title题目Hierarchical Vision Transformers for prostate biopsy grading: Towardsbridging the generalization gap用于前列腺活检分级的分层视觉 Transformer&#xff1a;迈向弥合泛化差距01文献速递介绍前列腺癌是全球男性中第二常见的确诊癌症&#xff0c;也是第五大致命癌…

Apple基础(Xcode②-Flutter结构解析)

&#x1f3d7;️ 目录结构速查表&#xff08;your_project/ios/ 下&#xff09;ios/ ├── Runner/ ← 原生 iOS 工程根目录&#xff08;Xcode 打开它&#xff09; │ ├── AppDelegate.swift ← App 入口&#xff08;类似 Android 的 MainActivity&…

X00229-基于深度强化学习的车联网资源分配python完整

X00229-基于深度强化学习的车联网资源分配python完整

面向多模态自监督学习的共享表示与独有表示解耦

通俗说法&#xff1a;在多模态自监督学习中&#xff0c;将共享信息和独有信息分离开来 Abstract 问题&#xff1a; 传统方法通常假设在训练和推理阶段都可以访问所有模态信息&#xff0c;这在实际应用中面对模态不完整输入时会导致性能显著下降。 解决方法&#xff1a;提出了一…

【iOS】weak修饰符

前言前面我们已经学习了解了sideTable&#xff0c;今天来看看在OC中&#xff0c;sideTable是如何在我们使用weak时工作的。在OC中&#xff0c;weak修饰符是一种用于声明“弱引用”的关键字&#xff0c;其核心特性是不参与对象的引用计数管理&#xff0c;而且当被引用的对象被释…

【JVM篇10】:三种垃圾回收算法对比详解

文章目录1. 标记-清除算法2. 复制算法3. 标记-整理算法总结与面试要点在通过 可达性分析等算法识别出所有存活对象和垃圾对象后&#xff0c;垃圾收集器&#xff08;GC&#xff1a;Garbage Collector&#xff09;就需要执行回收操作来释放垃圾对象所占用的内存。以下是三种最基础…

JXD进步25.7.30

1.为啥是update&#xff0c;因为你if判断有问题。或者是你上来就给id赋值了。2. 这个是清空network历史3.断点位置打在这里&#xff1a;打在上面它进不来4.

Flutter开发实战之网络请求与数据处理

第6章:网络请求与数据处理 “数据是应用的血液,网络是连接世界的桥梁。” 在移动应用开发中,与服务器进行数据交互是必不可少的功能。无论是获取用户信息、提交表单数据,还是上传图片、下载文件,都离不开网络请求。本章将带你深入掌握Flutter中的网络编程技巧。 6.1 网络…

快速分页实现热点功能-索引和order by

需求:分页求出进三天的发布视频的权重热度 权重 / 衰减时间 衰减时间 当前时间 - 视频发布时间 小根堆来实现这个公式可以很好的利用半衰期来进行解决难点:如果一次性加载太多到springBoot服务器里面会造成堆内存占用过多&#xff0c;分页又有可能造成深分页问题&#xff0c;…