颠覆传统!单样本熵最小化如何重塑大语言模型训练范式?

颠覆传统!单样本熵最小化如何重塑大语言模型训练范式?

大语言模型(LLM)的训练往往依赖大量标注数据与复杂奖励设计,但最新研究发现,仅用1条无标注数据和10步优化的熵最小化(EM)方法,竟能在数学推理任务上超越传统强化学习(RL)。这一突破性成果或将改写LLM的训练规则,快来了解这场效率革命!

论文标题

One-shot Entropy Minimization

来源

arXiv:2505.20282v2 [cs.CL] + https://arxiv.org/abs/2505.20282

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

大语言模型(LLM)的训练后优化(post-training)近年来发展迅猛,DeepSeek-R1、Kimi-K1.5和OpenAI o-series等模型展现出卓越的推理能力。然而,传统强化学习(RL)方法在应用中面临显著挑战:其不仅需要大量高质量标注数据,还需精心设计规则化奖励函数以最大化优势信号,同时防范“奖励黑客”问题。与之形成鲜明对比的是,熵最小化(EM)作为完全无监督方法,在训练效率与便捷性上具备潜在优势。本研究通过训练13,440个LLM,系统验证了EM仅用单条无标注数据和10步优化即可超越传统RL的可能性,为LLM训练后优化范式提供了全新思路。

研究问题

1. 数据效率低下:RL需数千条标注数据,而无监督方法的潜力尚未充分挖掘。

2. 训练复杂度高:RL需设计复杂奖励函数,且易出现“奖励黑客”(reward hacking)问题。

3. 收敛速度缓慢:RL通常需数千步训练,而高效优化方法亟待探索。

主要贡献

1. 单样本高效优化:提出One-shot Entropy Minimization(单样本熵最小化)方法,仅用1条无标注数据+10步优化,性能超越传统RL(如在Qwen2.5-Math-7B模型上,MATH500数据集得分提升25.8分)。

2. 理论机制创新:揭示EM与RL的核心目标一致(释放预训练模型潜力),但通过“对数几率右移”(logits shift)机制驱动模型行为,与RL的左移方向相反,更利于生成高概率正确路径。

3. 关键因素解析:发现温度参数(temperature)是训练与推理的核心变量,EM在推理时温度趋势与RL完全相反(EM随温度升高性能下降,RL反之)。

3. 范式重新定义:证明EM是“分布塑形工具”而非学习方法,其效果在10步内即可完成,后续训练 loss 下降与性能提升解耦。

方法论精要

1. 核心算法/框架

熵最小化算法:通过最小化生成token的条件熵 H t H_t Ht,迫使模型对预测更自信,仅计算生成token(非prompt部分)的熵。

数据选择策略:基于“方差筛选”选择最具不确定性的输入——计算模型在k次采样中的“pass@k准确率方差”,优先选择方差最高的prompt(如NuminaMath数据集中的风力压力计算问题)。

2. 关键参数设计原理

温度参数0.5:训练时温度过低会使分布过窄,过高则增加随机性,0.5时性能方差最大,易获峰值表现。

学习率 2 × 10 − 5 2×10^{-5} 2×105:10步快速收敛的最优选择,过大易导致过自信,过小则收敛缓慢。

3. 创新性技术组合

无监督+方差筛选:无需标注数据,仅通过模型自身预测的不确定性筛选有效输入,形成“熵敏感”训练信号。

对数几率分析:EM使logits分布右偏(skewness提升至1.54),集中概率质量于正确路径,而RL导致左偏(skewness降至0.02)。

4. 实验验证方式

数据集:数学推理基准(MATH500、Minerva Math、Olympiad Bench、AMC23),以及LLaMA-3.1-8B、Qwen2.5系列等多模型测试。

基线方法:OpenReasoner-Zero、SimpleRL-Zoo、Prime-Zero等RL模型,对比其在数据量(129k-230k)与训练步数(240-4000步)上的劣势。

实验洞察

1. 性能优势

  • Qwen2.5-Math-7B模型:EM 1-shot使MATH500从53.0提升至78.8(+25.8),Minerva Math从11.0至35.3(+24.3),平均提升24.7分,接近Prime-Zero-7B等SOTA模型。
  • 跨模型泛化:在Qwen2.5-7B-Instruct模型上,EM将平均准确率从43.12%提升至44.5%,且对弱模型(LLaMA-3.1-8B)也有29.6%→42.2%的提升。

2. 效率突破

  • 训练步数:仅10步收敛,较RL的数千步提升数百倍;单样本训练速度比RL快3个数量级。
  • 数据效率:1条数据效果超过RL的数千条,如EM 1-shot在AMC23上得分70.3,超越SimpleRL-Zoo(24k数据+4000步)的55.3分。

3. 消融研究

  • 温度影响:训练时温度0.5性能最佳,推理时温度与性能负相关(温度1.0时EM平均得分下降5%,RL上升3%)。

  • 训练顺序:EM先于RL可提升性能(如Qwen2.5-Math-7B+EM+RL在AMC23得70.3),而RL后接EM会导致性能下降(如SimpleRL-Zoo+EM得分降低5.9分)。

Future Works

1. 稳定化训练机制开发:针对EM训练中存在的随机性问题(相同设置下不同种子得分差异可达2倍),探索自适应早停策略或正则化方法,如基于损失-性能解耦点的动态终止准则,降低温度参数敏感性,构建更鲁棒的训练框架。

2. 跨领域泛化探索:当前EM主要验证于数学推理任务,未来将拓展至对话生成、代码补全、科学文献总结等多模态场景,研究序列级熵优化(如全句语义熵)与任务特定先验融合技术,验证其作为通用分布塑形工具的普适性。

3. 混合优化范式构建:探索EM与监督微调(SFT)、RL的协同机制,例如设计“EM预塑形→SFT精调→RL校准”的流水线,或开发动态熵-奖励联合优化目标,平衡模型自信度与外部对齐要求,解决RL后接EM导致的“对齐税”问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/85350.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自动驾驶系统研发系列—激光雷达感知延迟:自动驾驶安全的隐形隐患?

🌟🌟 欢迎来到我的技术小筑,一个专为技术探索者打造的交流空间。在这里,我们不仅分享代码的智慧,还探讨技术的深度与广度。无论您是资深开发者还是技术新手,这里都有一片属于您的天空。让我们在知识的海洋中一起航行,共同成长,探索技术的无限可能。 🚀 探索专栏:学…

【MySQL】事务及隔离性

目录 一、什么是事务 (一)概念 (二)事务的四大属性 (三)事务的作用 (四)事务的提交方式 二、事务的启动、回滚与提交 (一)事务的启动、回滚与提交 &am…

视觉分析明火检测助力山东化工厂火情防控

视觉分析技术赋能化工厂火情防控:从山东事故看明火与烟雾检测的应用价值 一、背景:山东化工事故中的火情防控痛点 近期,山东高密友道化学有限公司、淄博润兴化工科技有限公司等企业接连发生爆炸事故,暴露出传统火情防控手段的局…

【小程序】微信小程序备案失败,有请DeepSeek闪亮出场,看TA如何快速给出解决方案

🌹欢迎来到《小5讲堂》🌹 🌹这是《小程序》系列文章,每篇文章将以博主理解的角度展开讲解。🌹 🌹温馨提示:博主能力有限,理解水平有限,若有不对之处望指正!&a…

Oracle正则表达式学习

目录 一、正则表达简介 二、REGEXP_LIKE(x,匹配项) 三、REGEXP_INSTR 四、REGEXP_SUBSTR 五、REGEXP_REPLACE 一、正则表达简介 相关网址: https://cloud.tencent.com/developer/article/1456428 https://www.cnblogs.com/lxl57610/p/8227599.html https://…

vscode 代理模式(agent mode),简单尝试一下。

1. 起因, 目的: agent mode, 很流行,名气很大。简单试试效果,确实很强。agent mode, 取代人工,确实是前进了一大步。 2. 先看效果 效果对比,左边是 普通的AI 生成的, 右边是 代理…

贝锐蒲公英工业路由器R300A海外版:支持多国4G频段,全球组网

为更好地满足全球部署和企业出海项目的多样化需求,贝锐蒲公英异地组网工业路由器R300A海外版全新上市,并已正式上架速卖通!无论是跨国分支机构协同办公,还是海外工厂设备远程运维,R300A海外版都能为企业提供灵活、高性…

自然图像数据集

目录 CIFAR-10 数据集CIFAR-100 数据集AFHQ 数据集FFHQ 数据集 CIFAR-10 数据集 简介: CIFAR-10 是一个经典的图像分类数据集,广泛用于机器学习领域的计算机视觉算法基准测试。它包含60000幅32x32的彩色图像,分为10个类,每类6000…

【AI面试秘籍】| 第25期:RAG的关键痛点及解决方案深度解析

今天我们来聊聊大模型领域一个非常火热的技术——RAG(Retrieval Augmented Generation)。RAG通过引入外部知识库,有效地缓解了大型语言模型(LLM)在处理知识密集型任务时可能出现的幻觉、知识过时等问题。然而&#xff…

精英-探索双群协同优化(Elite-Exploration Dual Swarm Cooperative Optimization, EEDSCO)

一种多群体智能优化算法,其核心思想是通过两个分工明确的群体——精英群和探索群——协同工作,平衡算法的全局探索与局部开发能力,从而提高收敛精度并避免早熟收敛。 一 核心概念 在传统优化算法(如粒子群优化、遗传算法&#xf…

Transformer相关

问题汇总 Transformer的结构自注意力机制(Self-Attention)多头自注意力前馈神经网络(Feed-Forward Network, FFN)位置编码编码器(Encoder)和解码器(Decoder)Multi-Query Attention(多查询注意力机制)Grouped-query Attention(分组查询注意力机制)FlashAttention与注…

【位运算】两整数之和(medium)

两整数之和(medium) 题⽬描述:解法(位运算):代码复杂度分析 题⽬链接: 371. 两整数之和 题⽬描述: 给你两个整数 a 和 b ,不使⽤ 运算符 和 - ,计算并返回两…

现代密码学入门 | 现代密码学核心特点介绍

在当今互联互通的世界中,数字数据在全球范围内不断流动,安全通信和数据保护的需求从未如此迫切。现代密码学作为数字防御的先锋,提供了一系列复杂的技术和算法,以保护信息免受窥探和恶意行为的侵害。 现代密码学是从其古典前身—…

Redis分布式锁深度解析与最佳实践

1 2 Redis分布式锁实现方式确实是经典问题,下面我将系统性地分析这个方案及其演进过程,并给出生产级的解决方案。 一、基础方案及其缺陷 1. 初始实现方式 SETNX lock_key unique_value # 尝试获取锁 EXPIRE lock_key 30 # 设置过期时间 …

Hive自定义函数案例(UDF、UDAF、UDTF)

目录 前提条件 背景 概念及适用场景 UDF(User-Defined Function) 概念 适用场景 UDAF(User-Defined Aggregate Function) 概念 适用场景 UDTF(User-Defined Table-Generating Function) 概念 适…

Go语言的原子操作

当我们想要对某个变量并发安全的修改,除了使用官方提供的mutex,还可以使用sync/atomic包的原子操作,它能够保证对变量的读取或修改期间不被其他的协程所影响。 Golang提供的原子操作都是非侵入式的,由标准库sync/atmoic包提供&am…

QNAP MEMOS 域名访问 SSL(Lucky)

注意:下述是通过ssh、docker-compose方式安装docker的,不是直接在container station中安装的哈!!! 一、编辑docker-compose.yml文件 用“#”号标识的,在保存文件的时候建议去掉,不然有时候会出…

C#实现远程锁屏

前言 这是一次提前下班没有锁屏进而引发的一次思考后的产物,思考的主要场景是当人离开电脑后,怎么能控制电脑锁屏,避免屏幕上的聊天记录被曝光。 首先想到通过系统的电源计划设置闲置超时时间熄屏,这可能是最接近场景的解决方案&a…

[Protobuf]常见数据类型以及使用注意事项

[Protobuf]常见数据类型以及使用注意事项 水墨不写bug 文章目录 一、基本数据类型1、字段2、字段的修饰规则 二、自定义数据类型1、message类型2、enum类型3、Any类型4、oneof类型5、map类型 三、小工具1.hexdump2.decode 四、注意事项 一、基本数据类型 protobuf 支持多种基础…

JS分支和循环

程序的执行顺序 在程序开发中&#xff0c;程序有三种不同的执行顺序 1.顺序执行 2.分支执行 3.循环执行 程序的代码块 <script>//一个代码块{var num11var num22var num3num1num2}//一个休想var info{name:"chen",age:18} 1.if分支语句&#xff08;单分支语句&…