本周大模型新动向:自主机器学习、状态机推理、上下文压缩

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

Sentinel: Attention Probing of Proxy Models for LLM Context Compression with an Understanding Perspective

检索增强型生成(RAG)通过外部上下文增强了大型语言模型(LLMs),但检索到的段落通常冗长、嘈杂或超出输入限制。现有的压缩方法通常需要训练专门的压缩模型,这增加了成本并降低了可移植性。本文提出了Sentinel,这是一个轻量级的句子级压缩框架,将上下文过滤重新定义为基于注意力的理解任务。Sentinel不是训练一个压缩模型,而是通过一个轻量级分类器探测一个现成的0.5B代理LLM的解码器注意力,以识别句子的相关性。实证研究表明,查询-上下文相关性估计在不同模型规模之间是一致的,0.5B代理与更大模型的行为非常接近。在LongBench基准测试中,Sentinel实现了高达5倍的压缩,同时匹配了7B规模压缩系统的问答性能。结果表明,探测原生注意力信号可以实现快速、有效的、问题感知的上下文压缩。

文章链接:

https://arxiv.org/pdf/2505.23277

02

R-KV: Redundancy-aware KV Cache Compression for Training-Free Reasoning Models Acceleration

推理模型在自我反思和思维链推理方面表现出令人印象深刻的性能。然而,它们通常会产生过长的输出,导致在推理过程中 key-value(KV)缓存过大。尽管思维链推理显著提高了复杂推理任务的性能,但当使用现有的 KV 缓存压缩方法部署时,也可能导致推理失败。为了解决这一问题,本文提出了针对推理模型的冗余感知 KV 缓存压缩方法(R-KV),这是一种专门针对推理模型中冗余标记的新方法。该方法仅使用 10% 的 KV 缓存就能保留接近 100% 的完整 KV 缓存性能,显著优于现有的 KV 缓存基线,后者仅能达到 60% 的性能。值得注意的是,R-KV 甚至在使用 16% 的 KV 缓存时就能达到完整 KV 缓存性能的 105%。这种 KV 缓存的减少还带来了 90% 的内存节省和比标准思维链推理推理快 6.6 倍的吞吐量。实验结果表明,R-KV 在两个数学推理数据集上始终优于现有的 KV 缓存压缩基线。

文章链接:

https://arxiv.org/pdf/2505.24133

03

Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time

由于偏好反馈固有的多面性,将大型语言模型与人类对齐是一项挑战。虽然现有的方法通常将其视为多目标优化问题,但它们往往忽略了人类实际上是如何做出决策的。对有限理性的研究表明,人类的决策遵循满意策略,即优化主要目标,同时确保其他目标满足可接受的阈值。为了弥合这一差距,并操作化的概念,满意的对齐,我们提出SITALIGN:推理时间框架,解决对齐的多方面性质,最大限度地提高主要目标,同时满足基于阈值的约束二级标准。我们提供了理论上的见解,我们的满意度为基础的推理对齐方法派生的次优界。我们经验验证SITAlign的性能,通过广泛的实验多个基准。例如,在PKU-SafeRLHF数据集上,主要目标是最大化帮助,同时确保无害阈值,SITAlign在GPT-4获胜率方面优于最先进的多目标解码策略22.3%,同时坚持无害阈值。

文章链接:

https://arxiv.org/pdf/2505.23729

04

Active Layer-Contrastive Decoding Reduces Hallucination in Large Language Model Generation

最近的解码方法通过改进在生成过程中选择下一个标记的方式,提高了大型语言模型(LLMs)的事实性。这些方法通常在标记级别操作,利用内部表示来抑制表面模式。然而,LLMs仍然容易出现幻觉,特别是在较长的上下文中。本文提出了一种新颖的解码策略——主动层对比解码(ActLCD),它主动决定在生成过程中何时应用对比层。通过将解码视为一个序贯决策问题,ActLCD采用由奖励感知分类器引导的强化学习策略,优化事实性,超越了标记级别。实验表明,ActLCD在五个基准测试中超越了最先进的方法,展示了其在多种生成场景中减少幻觉的有效性。

文章链接:

https://arxiv.org/pdf/2505.23657

05

ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering

大型语言模型(LLM)基础代理的出现显著推动了自主机器学习(ML)工程的发展。然而,大多数现有方法严重依赖手动提示工程,无法根据多样化的实验经验进行适应和优化。针对这一问题,本文首次探索了基于学习的代理机器学习范式,其中LLM代理通过在线强化学习(RL)在机器学习任务上进行交互式实验以学习。为此,本文提出了一种新颖的代理机器学习训练框架,包含三个关键组件:(1)探索增强的微调,使LLM代理能够生成多样化的动作以增强RL探索;(2)逐步强化学习,使训练能够在单个动作步骤上进行,加速经验收集并提高训练效率;(3)针对代理机器学习的特定奖励模块,将多种机器学习反馈信号统一为一致的奖励以优化RL。利用该框架,我们训练了ML-Agent,这是一个由7B规模的Qwen-2.5 LLM驱动的自主ML代理。值得注意的是,尽管仅在9个机器学习任务上进行训练,但我们的7B规模的ML-Agent在性能上超越了671B规模的DeepSeek-R1代理。此外,它还实现了持续的性能改进,并展现出卓越的跨任务泛化能力。

文章链接:

https://arxiv.org/pdf/2505.23723

06

GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning

本文提出了一种名为GAM-Agent的博弈论多智能体框架,用于增强视觉语言推理能力。与以往的单智能体或单一模型方法不同,GAM-Agent将推理过程建模为基线智能体(每个智能体专注于视觉感知子任务)和关键智能体(验证逻辑一致性和事实正确性)之间的非零和博弈。智能体通过结构化的声明、证据和不确定性估计进行通信。该框架引入了一个不确定性感知控制器,用于动态调整智能体协作,在检测到分歧或模糊性时触发多轮辩论,从而得出更稳健、更具可解释性的预测结果。在MMMU、MMBench、MVBench和V*Bench四个具有挑战性的基准测试中,实验结果表明,GAM-Agent显著提升了各种视觉语言模型(VLM)骨干的性能。特别是对于中小规模模型(例如Qwen2.5-VL-7B、InternVL3-14B),其准确率提高了5% - 6%,而对于强大的模型如GPT-4o,准确率最高可提升2% - 3%。该方法具有模块化、可扩展性和通用性,为可靠且可解释的多智能体多模态推理提供了一种路径。

文章链接:

https://arxiv.org/pdf/2505.23399

07

From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval

链式推理(CoT)提示使大型语言模型(LLMs)能够进行复杂推理,包括在信息检索(IR)中的应用。然而,它常常导致过度思考,即模型产生过长且语义冗余的推理痕迹,几乎没有或根本没有好处。本文识别出信息检索中的两个关键挑战:重复轨迹,即反复访问类似状态;以及误导性推理,即偏离用户意图的推理。为了解决这些问题,本文提出了一种基于状态转换的推理框架——状态机推理(SMR),该框架由离散动作(REFINE、RERANK、STOP)组成,支持提前停止和细粒度控制。在BEIR和BRIGHT基准测试上的实验表明,SMR在提高检索性能(nDCG@10)方面提高了3.4%,同时减少了74.4%的令牌使用量。它可以在不需要针对特定任务进行调整的情况下,广泛应用于各种LLMs和检索器,为传统的CoT推理提供了一种实用的替代方案。

文章链接:

https://arxiv.org/pdf/2505.23059

本期文章由陈研整理

近期活动分享


ICML 2025一作讲者招募中,欢迎新老朋友来预讲会相聚!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾800场活动,超1000万人次观看。

我知道你 

在看

提出观点,表达想法,欢迎 

留言

点击 阅读原文 查看更多!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/83808.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从零开始掌握 Docker:核心命令与实践指南

从零开始掌握 Docker:核心命令与实践指南 摘要: 本文系统整理了 Docker 的核心概念与常用命令,涵盖镜像管理、容器操作、数据存储、网络配置、Compose 编排以及 Dockerfile 构建等内容。通过清晰的命令示例和实用说明,帮助开发者…

RDMA简介7之RoCE v2可靠传输

可靠传输技术旨在通过多种方法确保数据包在传输过程中不会丢失或损坏,同时保证数据包按发送顺序到达接收端,其要求在链路发生丢包或网络发生拥塞等情况下能够完全保证数据包的正确性同时尽可能地提高传输速率。RoCE v2协议实现可靠传输的技术手段共有三种…

java33

1.特殊文件 属性文件properties 配置文件xml 注意:XML文件可以直接在浏览器里面打开: 了解知识: 2.日志技术 3.单元测试 注意:点击方法内部再右键运行是测试改方法的,点击类名再右键运行才是测试整个测试类的&#xff…

OSI 七层网络模型

目录 OSI 七层网络模型七层模型1. 物理层(Physical Layer)2. 数据链路层(Data Link Layer)3. 网络层(Network Layer)4. 传输层(Transport Layer)5. 会话层(Session Layer…

Spring Boot 4.0.0 新特性详解:深入解读 Spring Framework 7.0.0

你是否注意到创建新 Spring Boot 项目时出现的最新选项?Spring Boot 4.0.0 预览版现已发布,基于最新的 Spring Framework 7.0.0 🌱。这个版本引入了众多激动人心的新特性,不仅提升了开发效率,改善了空值安全性,还简化了 Web 应用程序的开发流程。本文将深入探讨这些重要…

从0到1构建高并发秒杀系统:实战 RocketMQ 异步削峰与Redis预减库存

🚀从0到1构建高并发秒杀系统:实战 RocketMQ 异步削峰与Redis预减库存 📖一、 简介 在电商、抢票等高并发场景中,秒杀系统面临着“高并发、库存稀缺、易超卖、系统易崩”的严峻挑战。传统的同步处理架构难以支撑海量请求并发下的性…

OpenCV CUDA模块图像变形------对图像进行任意形式的重映射(Remapping)操作函数remap()

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 该函数根据给定的映射表 xmap 和 ymap 对图像进行 任意形式的重映射(Remapping)操作,是 GPU 加速版本的图像几…

PC 端常用 UI 组件库

一、前言 随着企业级应用、后台管理系统、数据平台等项目的不断发展,前端开发已经不再局限于移动端和响应式布局,而是越来越多地聚焦于 PC 端系统的构建。为了提升开发效率、统一设计风格并保障用户体验,使用成熟的 UI 组件库 成为了现代前端…

pikachu靶场通关笔记31 文件包含02之远程文件包含

目录 一、文件包含功能 二、文件包含Vulnerability 二、远程文件包含 三、环境配置 1、进入靶场 2、搭建环境 (1)定位php.ini文件 (2)修改php.ini文件 四、源码分析 五、渗透实战 1、选择科比 2、执行phpinfo &…

QT集成Boost库

在Windows平台上,使用Qt集成Boost库,并基于MSVC编译器在CMake文件中加载,可以按照以下步骤进行配置。 Boost库的编译 如果Boost库未预编译,需要手动编译,解压zip到D:\Library\boost_1_87_0,打开cmd命令行…

MySQL从库复制延迟的监测

目录 ⏱️ 一、原生内置方法❤️ 二、心跳表工具(如pt-heartbeat)⚙️ 三、MySQL 8.0 增强方案📊 四、各方案对比总结💎 五、选择建议 MySQL从库复制延迟的监测是保障数据一致性和读写分离可靠性的关键环节,以下是主流…

slam--最小二乘问题--凹凸函数

最小二乘问题 最小二乘问题标准公式 残差函数,线性和非线性最小二乘 最小二乘问题的两种写法: 目标 找到 x使得预测值 Ax与观测值 b 的残差平方和最小。 范数和范数平方 线性最小二乘 一般形式: 残差 rAx−b是x 的线性函数。 目标函数是…

crackme008

crackme008 名称值软件名称Andrnalin.1.exe加壳方式无保护方式serial编译语言Microsoft Visual Basic调试环境win10 64位使用工具x32dbg,PEid破解日期2025-06-10 脱壳 1. 先用PEid查壳 查到无壳 寻找Serial 寻找flag,用x32dbg打开程序,鼠标右键->…

【C语言】图书管理系统(文件存储版)丨源码+详解

一、系统介绍 这是一个基于C语言开发的终端图书管理系统,采用链表数据结构​​二进制文件存储技术实现。系统具有以下特点: ​双角色系统​:管理员(管理图书)和读者(借阅/归还)​完整功能​&a…

Java求职者面试题解析:Spring、Spring Boot、MyBatis框架与源码原理

Java求职者面试题解析:Spring、Spring Boot、MyBatis框架与源码原理 第一轮:基础概念问题 1. 请解释什么是Spring框架?它的核心特性有哪些? Spring是一个开源的Java/Java EE应用程序框架,用于简化企业级应用开发。其…

【Chipyard】修改Gemmini 中PE的数量

实战目标 PE数量扩大到原来4倍 原来配置 tileRows: Int 1,tileColumns: Int 1,meshRows: Int 16,meshColumns: Int 16, 改后配置 tileRows: Int 1,tileColumns: Int 1,meshRows: Int 32,meshColumns: Int 32, 修改配置 1. 修改gemmini的scala配置文件,用…

TCP客户端进程分割输入输出

创建TCP客户端&#xff0c;创建子进程分割TCP客户端的read功能和write功能&#xff0c;实现分割I/O的目的。加快客户端速率。 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> #include <signal.h> #include …

Wi-Fi 6 在 2.4GHz 频段的速率与优化分析

Wi-Fi 6&#xff08;802.11ax&#xff09;在 2.4GHz 和 5GHz 频段均可工作&#xff0c;理论最高速率可达 1200 Mbps&#xff08;5GHz&#xff0c;80MHz&#xff0c;22 MIMO&#xff09;。但在 2.4GHz 频段&#xff0c;速率受 信道宽度、MIMO、调制方式、干扰、协议开销 影响&am…

WPF--Application.Current.Dispatcher.BeginInvoke

1.代码示例 private void LogInfoList_CollectionChanged(object? sender, NotifyCollectionChangedEventArgs e) {// 直接在这里修改集合会引发递归if (e.Action NotifyCollectionChangedAction.Add){if (logInfoList.Count > 200){logInfoList.RemoveAt(0); // 这里会…

ZooKeeper详解以及应用部署(AI)

ZooKeeper 是一个开源的分布式协调服务框架&#xff0c;旨在为分布式应用提供一致性保障和关键协调功能。其核心设计理念是将复杂的分布式一致性逻辑封装为简单可靠的接口&#xff0c;让开发者专注于业务逻辑而非底层协调难题。以下是其核心要点&#xff1a; &#x1f9e0; 一、…