Meta AIUCSD放大招:DeepConf 让大语言模型推理既快又准,84.7%的token节省+近乎完美的准确率!

1. 【前言】

Meta&UCSD
Meta&UCSD

大语言模型(LLMs) 在推理任务中通过自一致性等测试时缩放方法展现出巨大潜力,但存在精度收益递减和计算开销高的问题。为此,Meta与UCSD的研究人员提出DeepConf方法,它利用模型内部的置信度信号,在生成过程中或生成后动态过滤低质量推理轨迹,无需额外模型训练或超参数调优,可无缝集成到现有服务框架中。在多种推理任务和最新开源模型(如Qwen 3和GPT-OSS系列)上的评估显示,DeepConf在挑战性基准测试(如AIME 2025)中表现优异,DeepConf@512的准确率高达99.9%,与完全并行思维相比,生成的** tokens减少多达84.7%,显著提升了推理效率**和性能。Up: DeepConf on AIME 2025. Down: Parallel thinking using DeepConf

2. 【论文基本信息】

论文基本信息
论文基本信息

论文标题:Deep Think with Confidence

论文链接:https://arxiv.org/html/2508.15260v1 项目链接:jiaweizzhao.github.io/deepconf

3 论文背景

3.1 大语言模型推理的现状与挑战

大语言模型(LLMs)在推理任务中展现出显著潜力,尤其通过测试时缩放方法(如自一致性方法),即生成多条推理路径并通过多数投票聚合答案,可有效提升推理性能。然而,该类方法存在明显局限:一方面,随着推理轨迹数量增加,精度提升呈现递减趋势,甚至可能因低质量轨迹主导投票而导致性能下降;另一方面,生成大量推理轨迹会带来极高的计算开销,例如在AIME 2025任务中,使用Qwen3-8B模型将pass@1精度从68%提升至82%,需额外生成511条推理轨迹,消耗1亿个token,严重限制了实际部署。

3.2 现有置信度评估方法的不足

近年来,研究开始利用模型的下一个token分布统计(如熵、置信度分数)评估推理轨迹质量,通过聚合token级统计量计算全局置信度(如平均轨迹置信度),以筛选低质量轨迹。但全局置信度方法存在两大缺陷:一是掩盖了局部推理步骤的置信度波动,可能忽略关键的中间推理错误(如少数高置信度token掩盖大量低置信度片段);二是需生成完整轨迹才能计算,无法实现低质量轨迹的早期终止,导致计算效率低下。

3.3 DeepConf方法的提出动机

为解决上述问题,本文提出“Deep Think with Confidence(DeepConf)”方法。其核心思路是利用模型内部的局部置信度信号,在推理轨迹生成过程中或生成后动态过滤低质量轨迹。该方法无需额外模型训练或超参数调优,可无缝集成到现有服务框架中,旨在同时提升推理效率(减少生成token)和性能(提高精度),尤其针对复杂推理任务(如AIME 2025)实现高效优化。

4.【研究方法论】

4.1 推理质量的置信度指标

为了有效评估推理轨迹的质量,论文基于模型内部的token分布提出了多种置信度指标,具体如下:

  • Token熵(Token Entropy):给定语言模型在位置i的预测token分布P_{i},token熵定义为H_{i}=-\sum_{j} P_{i}(j) log P_{i}(j),其中P_{i}(j)表示词汇表中第j个token的概率。低熵表明分布集中,模型确定性高;高熵则反映预测的不确定性。
  • Token置信度(Token Confidence):将位置i的top-k个token的负平均对数概率定义为token置信度C_{i}=-\frac{1}{k} \sum_{j=1}^{k} log P_{i}(j),k为所考虑的top token数量。高置信度对应分布集中和模型确定性高,低置信度则表示token预测的不确定性。
  • 平均轨迹置信度(Average Trace Confidence):为了评估整个推理轨迹,对token级指标进行聚合,采用平均轨迹置信度(也称为自确定性)作为轨迹级质量度量,即C_{avg }=\frac{1}{N} \sum_{i=1}^{N} C_{i},其中N是生成的token总数。该指标能有效区分正确和错误的推理路径,值越高表明正确性可能性越大,但存在掩盖中间推理失败和需完整轨迹才能评估的局限性。 Confidence distributions for correct vs. incorrect reasoning traces across different metrics.

4.2 DeepConf的置信度度量方法

为解决全局置信度度量的局限性,论文提出了多种捕捉局部中间步骤质量的置信度度量方法,具体如下:

  • 组置信度(Group Confidence):通过在推理轨迹的重叠跨度上平均token置信度,量化中间推理步骤的置信度,提供更局部和平滑的信号。每个token与一个滑动窗口组G_{i}相关联,该组由n个先前的token组成(例如n=1024或2048),相邻窗口重叠。对于每个组G_{i},组置信度定义为C_{G_{i}}=\frac{1}{|G_{i}|} \sum_{t \in G_{i}} C_{t},其中|G_{i}|是组G_{i}中的token数量。
  • 底部10%组置信度(Bottom 10% Group Confidence):为捕捉极低置信度组的影响,轨迹置信度由轨迹内底部10%组置信度的平均值确定,即C_{bottom-10 }(t)=\frac{1}{|G_{b}|} \sum_{G_{j} \in G_{b}} C_{G_{j}},其中G_{b}是置信度得分最低的10%组的集合。
  • 最低组置信度(Lowest Group Confidence):考虑推理轨迹中最不自信的组的置信度,是底部10%组置信度的特例,仅基于最低置信度组估计轨迹质量,定义为C_{least}(t)=\min_{G_{j}\in G}C_{G_{j}},其中G是推理轨迹中所有token组的集合。
  • 尾部置信度(Tail Confidence):通过关注推理轨迹的最后部分来评估其可靠性,基于推理质量在长思维链末端往往下降且最终步骤对正确结论至关重要的观察。尾部置信度C_{tail }定义为C_{tail }(t)=\frac{1}{|T_{tail }|} \sum_{t \in T_{tail }} C_{t},其中T_{tail }代表固定数量的token(例如2048)。

4.3 DeepConf的离线与在线思维方法

2 Algorithms
2 Algorithms
4.3.1 离线思维(Offline Thinking)

在离线思维中,每个问题的推理轨迹已生成,重点是聚合多个轨迹的信息以更好地确定最终答案,主要包括以下方法:

  • 多数投票(Majority Voting):在标准多数投票中,每个推理轨迹的最终答案对最终决策的贡献相同。设T为所有生成轨迹的集合,对于每个t \in T,令answer(t)为从轨迹t中提取的答案字符串。每个候选答案a的得票数为V(a)=\sum_{t \in T} I( answer (t)=a),其中I{\cdot}是指示函数。最终答案选择得票最高的那个,即\hat{a}=arg max _{a} V(a)
  • 置信度加权多数投票(Confidence-Weighted Majority Voting):不再平等对待每个轨迹的投票,而是根据相关轨迹的置信度对每个最终答案进行加权。对于每个候选答案a,其总得票权重定义为V(a)=\sum_{t \in T} C_{t} \cdot I( answer(t)=a),其中C_{t}是从上述讨论的置信度度量中选择的轨迹级置信度。选择加权得票最高的答案,该投票方案有利于高置信度轨迹支持的答案,从而减少不确定或低质量推理答案的影响。
  • 置信度过滤(Confidence Filtering):除了加权多数投票外,还应用置信度过滤来集中关注高置信度推理轨迹。置信度过滤根据轨迹置信度得分选择前η百分比的轨迹,确保只有最可靠的路径对最终答案有贡献,提供η=10%和η=90%两种选择。 Confidence measurements and offline thinking with confidence
4.3.2 在线思维(Online Thinking)

在线思维过程中评估置信度,能够在生成过程中实时估计轨迹质量,从而动态终止无前景的轨迹,主要包括以下内容:

  • 算法介绍:提出了基于最低组置信度的DeepConf-low和DeepConf-high两种算法,在在线思维中自适应地停止生成并调整轨迹预算,包括离线预热和自适应采样两个主要部分。
  • 离线预热(Offline Warmup):DeepConf需要一个离线预热阶段来确定在线决策的停止阈值s。对于每个新提示,生成N_{init }个推理轨迹(例如N_{init }=16)。停止阈值s定义为s= Percentile _{100-\eta}(\{C_{t}: t \in T_{warmup }\}),其中T_{warmup }表示所有预热轨迹,C_{t}是轨迹t的置信度,η是期望的保留比例。具体而言,DeepConf-low使用前η=10%(对应第90个百分位数),DeepConf-high使用前η=90%(对应第10个百分位数),该阈值确保在在线生成过程中,当轨迹的置信度低于从预热阶段保留前η%最高置信度轨迹的水平时,轨迹将被终止。
  • 自适应采样(Adaptive Sampling):在DeepConf中,所有方法都采用自适应采样,根据问题难度动态调整生成的轨迹数量。难度通过生成轨迹之间的共识来评估,用量化多数投票权重V(\hat{a})与总投票权重\sum_{a} V(a)的比率表示,即\beta=\frac{V(\hat{a})}{\sum_{a} V(a)}。τ是预设的共识阈值。如果\beta<\tau,模型对当前问题未达成共识,轨迹生成将继续,直到达到固定的轨迹预算B。否则,轨迹生成停止,使用现有轨迹确定最终答案。 -DeepConf during online generation.

5.【实验结果】

5.1 实验设置

  • 模型:评估5个开源LLM(DeepSeek-8B、Qwen3-8B/32B、GPT-OSS-20B/120B),覆盖多参数规模,侧重数学推理与长思维链能力。
  • 数据集:5个高难度基准,含4个数学竞赛题(AIME24/25、BRUMO25、HMMT25)和1个研究生STEM推理任务(GPQA)。
  • 基线与设置:以自一致性多数投票为基线,预生成4096条推理轨迹池,离线/在线实验分别重采样后应用投票方法,结果经64次独立运行平均,早期终止轨迹仅计停止前token。

5.2 离线评估结果

  • 带过滤的置信度加权多数投票多数优于标准多数投票(Cons@512)。
  • η=10%过滤收益最大,如DeepSeek-8B在AIME25准确率从82.3%升至87.4%,GPT-OSS-120B在AIME25达99.9%。
  • 局部与全局置信度度量均有效,但η=10%激进过滤可能因模型过度自信受损,η=90%更保守安全。
  • 所有方法均优于pass@1,最低组置信度下,η=10%平均提升5.27个百分点(相对多数投票),η=90%平均提升0.29个百分点。 Benchmarking confidence measurements in offline setting Offline accuracy with Lowest Group Confidence filtering (DeepSeek-8B) on AIME24, AIME25, BRUMO25, and HMMT25

5.3 在线评估结果

  • K=512时,DeepConf-low减少43-79%token,多数情况提升准确率(如DeepSeek-8B在AIME24+5.8%),少数情况下降;DeepConf-high节省18-59%token,准确率基本不变。
  • GPT-OSS-120B上,DeepConf最高节省85.8%token,保持竞争力。
  • DeepSeek-8B上,DeepConf-low平均省62.88%token,DeepConf-high省47.67%,效率优势显著。
  • 在线行为与离线一致,η=10%过滤增益最高,偶尔在特定数据集下降。

Benchmark DeepConf in online setting. Accuracy vs. generated tokens for online Lowest Group Confidence filtering (DeepSeek8B) on AIME24, AIME25, BRUMO25, and HMMT25.

6.【总结展望】

6.1 总结

论文提出了Deep Think with Confidence(DeepConf)方法,旨在解决大型语言模型(LLMs)在推理任务中使用自一致性等测试时扩展方法存在的准确性收益递减和计算开销高的问题。DeepConf利用模型内部的置信度信号,在生成过程中或生成后动态过滤低质量的推理轨迹,无需额外的模型训练或超参数调优,可无缝集成到现有服务框架中。通过在多种推理任务和最新开源模型上的评估表明,在离线模式下,DeepConf@512使用GPT-OSS-120B在AIME 2025上达到99.9%的准确率;在在线模式下,与完全并行思维相比,可减少高达84.7%的生成token,同时保持或超过准确率,有效提升了推理效率和性能。

6.2 展望

未来工作有多个有前景的方向。一是将DeepConf扩展到强化学习场景,利用基于置信度的早期停止来指导策略探索,提高训练期间的样本效率。二是解决模型在错误推理路径上表现出高置信度的情况,这是实验中观察到的一个关键限制。此外,还可探索更 robust的置信度校准技术和不确定性量化方法,以更好地识别和缓解过度自信但错误的预测。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/95637.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/95637.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决leetcode第3671.子序列美丽值求和问题

3671. 子序列美丽值求和难度&#xff1a;困难问题描述&#xff1a;给你一个长度为 n 的整数数组 nums。对于每个 正整数 g&#xff0c;定义 g 的 美丽值 为 g 与 nums 中符合要求的子序列数量的乘积&#xff0c;子序列需要 严格递增 且最大公约数&#xff08;GCD&#xff09;恰…

电机控制(一)-电机分类

电机分类 电机分类&#xff1a; 电机的拓扑模型并没有发生太大变化,变化较大的是控制电机的方法。 常见的电机类型有&#xff1a; 步进电机vs伺服电机 在工业自动化、机器人、精密设备等领域&#xff0c;步进电机和伺服电机是两种最常用的驱动电机&#xff0c;但两者的核心…

【Qt】QToolBar、QToolButton的常用用法

一、QToolBar 常用用法 QToolBar 是 Qt 中用于创建工具栏的控件&#xff0c;可快速放置常用功能按钮、分隔符或自定义控件&#xff0c;并支持拖动停靠、浮动等特性。 1. 基础创建与添加到主窗口 // 在 QMainWindow 中创建工具栏 QToolBar *toolBar new QToolBar(tr("主工…

DVWA靶场通关笔记-验证码绕过Insecure CAPTCHA (Impossible级别)

目录 一、reCAPTCHA 1、配置security为Impossible级别。 2、配置RECAPTCHA参数 3、再次打开靶场 二、源码分析 1、index.php 2、impossible.php 3、功能函数 三、reCAPTCHA 防范分析 1、严格的参数验证与处理 2、预处理防止SQL注入 3、CAPTCHA 验证通过 4、验证当前…

MySQL安装(如果之前有安装过MySQL,先执行下面的卸载流程)

1.安装MySQL 1.1更新系统的软件包列表 sudo apt-get update1.2安装MySQL服务器 sudo apt-get install mysql-server1.3检查MySQL服务是否启动&#xff0c;若没有启动手动启动若没有启动执行&#xff1a; sudo service mysql start1.4登录MySQL&#xff08;默认安装之后不需要密…

Streamlit 数据看板模板:非前端选手快速搭建 Python 数据可视化交互看板的实用工具

你想想看&#xff0c;平时你用 Python 跑出来一堆数据 —— 比如用户留存率、产品销量变化&#xff0c;想给领导或者同事看&#xff0c;总不能直接发个 CSV 文件或者一堆静态图吧&#xff1f;对方看的时候还得自己翻数据&#xff0c;想对比下上个月和这个月的变化都费劲&#x…

FMC、FMC+ 详解

文章目录FMC 简介FMC 引脚输出定义High-pin count (HPC) connector, HPC pinoutLow-pin count (LPC) connector, LPC pinoutPin and signal descriptionFMC 简介VITA57 标准更新历史VITA57.4 标准推出的原因FMC 引脚输出定义Altera 开发板的 FMC 引脚定义英特尔 Arria 10 GX FP…

小迪web自用笔记24

黑名单机制。如果被过滤可以试试PHP5看看过滤没&#xff08;或者其他变种变形&#xff09;&#xff0c;但是得看环境有些环境会被当成下载&#xff0c;有些会直接打开。白名单机制只允许这几个特定后缀可以上传&#xff0c;比黑名单更安全。直接从信息图中获取文件类型。文件类…

私有部署问卷系统、考试系统、投票系统、测评系统的最佳选择-调问开源问卷表单(DWSurvey)

在选择私有部署问卷系统的时候&#xff0c;调问问卷系统(DWSurvey)是一定要尝试一下&#xff0c;而且可以应用到私有部署考试系统、私有部署投票系统、私有部署测评系统等多个应用场景。 私有部署问卷、考试、测评、投票系统的优势不言而喻&#xff0c;就拿私有部署考试系统来说…

企业实用——MySQL的备份详解

序言: 本次基于mysql8.0.40来给大家做数据库的备份的实用技巧和思路!对于mysql基础的部分后续我会节选部分给大家讲解,本篇文章适合有一定数据库基础的小伙伴看。 目录 一、MySQL备份概述 1、关于数据保存你要知道 2、到底要备份什么 备份什么 MySQL体系结构(MySQL =…

使用 FunASR 工具包实现音频文件的语音识别

使用 FunASR 工具包实现音频文件的语音识别&#xff0c;并将识别结果保存为文本文件&#xff0c;支持单文件处理和批量处理。电脑环境需要配置&#xff0c;我使用的PyTorch版本: 2.4.1cu121&#xff0c;CUDA可用: True。FunASR 是一个功能强大、性能卓越、面向工业应用的语音识…

【STM32】定时器编码器接口

【STM32】定时器编码器接口一、编码器接口1.1 正交编码器1.2 编码器接口基本结构1.3 工作模式二、编码器接口测速一、编码器接口 编码器接口可接收增量&#xff08;正交&#xff09;编码器的信号&#xff0c;根据编码器旋转产生的正交信号脉冲&#xff0c;自动控制CNT的自增或…

浪潮科技Java开发面试题及参考答案(120道题-中)

请介绍一下 SpringMVC 的运行流程&#xff1f;从用户发送请求到响应返回的完整步骤是什么&#xff1f;SpringMVC 是基于MVC架构的Web框架&#xff0c;其运行流程围绕“前端控制器&#xff08;DispatcherServlet&#xff09;”展开&#xff0c;通过多个组件协同工作&#xff0c;…

k8s初始化常见问题

执行初始化&#xff1a;kubeadm init --apiserver-advertise-address192.168.88.110 --image-repository registry.aliyuncs.com/google_containers --pod-network-cidr10.244.0.0/16 --control-plane-endpointweb01报错信息&#xff1a;age-repository registry.aliyuncs.com/…

Python学习笔记--使用Django修改和删除数据

一、修改方式一&#xff1a;模型类的对象.属性 更改的属性值&#xff0c;模型类的对象.save()返回值&#xff1a;编辑的模型类的对象。def update_book(request):book models.Book.objects.filter(pk1).first()book.price "169"book.save()return HttpResponse(bo…

如何评价2025年数学建模国赛?

2025年全国大学生数学建模竞赛将于9月4日正式举行&#xff01; 有些第一次参加数学竞赛的同学可能觉得自己还没准备好&#xff0c;临近比赛感到紧张很正常&#xff0c;但需调整心态——数学建模比赛本就是学习过程&#xff0c;遇到不会的知识及时搜索、现学现用即可&#xff0…

uniapp [全端兼容] - 实现全景图Vr 720°全景效果查看预览功能,3D全景图流畅不卡顿渲染+手势拖拽+悬浮工具按钮,uniAPP实现vr看720度全景效果示例代码(H5小程序APP全兼容)

前言 如果您需要 Vue 版本,请访问 这篇文章。 在 uni-app 全平台兼容(H5网页网站、支付宝/微信小程序、安卓App、苹果App、nvue)开发中,详细实现全景图Vr 720全景查看+用户可流畅拖动预览+自定义工具栏/按钮元素等,uniApp如何实现在线观看720度全景图,适用于全景图VR看房…

51单片机-实现串口模块教程

本章概述思维导图&#xff1a;51单片机实现串口模块教程通信基本概念通信&#xff0c;至少是需要两个对象&#xff0c;一个收一个发数据。根据数据通信的传输时序协调方式&#xff0c;可分为&#xff1a;同步通信和异步通信&#xff1b;根据数据通信的传输线路可分为&#xff1…

Linux echo 命令使用说明

echo 命令使用说明&#xff08;Linux&#xff09; 适用环境 Bash/Zsh 等常见 Shell&#xff08;echo 通常为内建命令&#xff09;也可能存在外部 /bin/echo&#xff08;行为与内建略有差异&#xff09; 基本语法 echo [选项] [字符串...]常用选项 -n: 结尾不输出换行-e: 解析反…

Java搭建高效后端,Vue打造友好前端,联合构建电子采购管理系统,实现采购流程电子化、自动化,涵盖采购全周期管理,功能完备,附详细可运行源码

前言&#xff1a;在当今数字化浪潮席卷的时代&#xff0c;企业的采购管理面临着前所未有的挑战与机遇。传统采购模式因流程繁琐、效率低下、信息不透明等问题&#xff0c;已难以满足企业快速发展的需求。电子采购管理系统作为一种创新的采购解决方案&#xff0c;借助先进的信息…