Transformer核心技术解析LCPO方法:精准控制推理长度的新突破

原创文章
1FFN前馈网络与激活函数技术解析:Transformer模型中的关键模块
2Transformer掩码技术全解析:分类、原理与应用场景
3【大模型技术】Attention注意力机制详解一
4Transformer模型中位置编码(Positional Embedding)技术全解析(三)
5Transformer模型中位置编码(Positional Embedding)技术全解析(二)
6Transformer模型中位置编码(Positional Embedding)技术全解析(一)
7自然语言处理核心技术词嵌入(Word Embedding),从基础原理到大模型应用
8DeepSeek-v3:基于MLA的高效kv缓存压缩与位置编码优化技术
9

【Tokenization第二章】分词算法深度解析:BPE、WordPiece与Unigram的原理、实现与优化

10Tokenization自然语言处理中分词技术:从传统规则到现代子词粒度方法

任务背景

在复杂推理、数学求解和代码生成等任务中,增加测试时间计算(即生成更长的思维链)可以显著提升模型性能。然而,现有的方法缺乏对推理链长度的精确与动态控制,导致无法在性能与效率之间取得理想平衡。

研究难点

  1. 如何让模型精确控制输出长度?
  2. 在满足指定长度限制的同时保持准确性?
  3. 如何训练模型在推理时根据任务动态调整计算资源?

方法概述:LCPO(Length-Controlled Policy Optimization)

设计动机

观察到模型通过生成更长的思维链可提升性能,但其推理长度不可控。因此提出 LCPO,一种专门用于训练推理专用模型以实现精确且自适应长度控制的方法。

核心思想

  • 在训练过程中,从预设范围内均匀采样目标长度 $ n_{gold} $
  • 将该长度作为提示的一部分输入模型。
  • 使用一个奖励函数评估模型表现:
  • 包括答案正确性奖励;
  • 减去长度偏差项(实际 token 数与目标 token 数之差乘以系数 $ \alpha $)。
  • 使用 GRPO(Generalized Reinforcement Policy Optimization)算法 训练模型,最大化累积奖励。

奖励函数设计

奖励函数具有双重目的:

  1. 鼓励生成正确的答案;
  2. 在指定较短输出时隐含地倾向于简洁推理;
  3. 激励模型始终匹配规定的目标长度,即使可用更少 token 得出正确结果。

我们将以此目标训练的模型称为 L1-Exact

论文实验

数据集

训练数据:DeepScaleR-Preview-Dataset

  • 来源:AIME、AMC、Omni-Math 和 STILL 提取的 40,000 个问题-答案对
  • 特点:专注于数学推理问题,用于训练模型在数学领域的推理能力。
  • 目标:模型需学习生成正确答案,并满足特定长度约束。

测试数据(共6个测试集)

名称描述类型
AIME 2025美国数学邀请赛 2025 年试题数学
MATH (Hendrycks et al., 2021b)数学问题解决基准数学
AMC美国数学竞赛测试集数学
Olympiad-Bench (He et al., 2024)奥林匹克级别科学问题科学
GPQA (Rein et al., 2023)研究生级问答基准综合
LSAT (Zhong et al., 2023)法学院入学考试逻辑题逻辑
MMLU (Hendrycks et al., 2021a)多任务语言理解基准知识

测试目标:评估模型在不同长度约束下的性能及其在未见过任务上的泛化能力。

模型架构

模型名称描述
DeepSeek-R1-Distill-Qwen-1.5B经过 R1 推理痕迹微调
DeepScaleR-1.5B-Preview原始模型,未进行长度控制修改
DeepScaleR-1.5B-Preview-4K使用 4K 上下文长度微调的 Agentic-24K 版本

对比方法

  • S1(Muennighoff et al., 2025):预算强制方法,使用简单干预控制推理长度。

评价指标

  1. 平均长度偏差$ n_y $(实际生成 token 数)与$ n_{gold} $(目标长度)之间的平均差异。
  2. 准确率(解决问题):在不同目标长度下模型的总体性能。
  3. 目标长度集合:{512, 1024, 2048, 3600} tokens。

实现细节

  • GRPO 超参数:与 DeepScaleR-1.5B Preview 相同。
  • 学习率:1e-6
  • Batch Size:128
  • 上下文长度:训练时为 4k tokens,评估时扩展至 8k tokens。
  • 训练框架:VeRL (MLSys, 2025)
  • 训练步数:700 步
  • 目标长度采样范围$ U(n_{min}, n_{max}) $,其中 $ n_{min}=100 $, $ n_{max}=4000 $
  • 平衡参数 $ \alpha $:固定为 0.0003

注意:未进行广泛超参数搜索,预期可通过进一步优化提升性能。

模型类型

类型描述
L1-Exact要求生成的推理链长度恰好等于目标长度
L1-Max要求生成的推理链长度不超过目标长度(动态调整)

实验目标

  1. 验证长度控制有效性
  2. 检查 L1-Exact 和 L1-Max 是否能严格遵循用户指定的长度约束,从而实现推理成本与性能的灵活权衡。

  3. 评估性能与长度关系

  4. 分析不同长度约束下模型准确率变化趋势;
  5. 与现有方法(如 S1)对比优势。

  6. 探索泛化能力

  7. 评估模型在训练数据之外的任务(如逻辑推理、知识理解)上的表现;
  8. 验证是否能将长度控制能力迁移到其他领域。

  9. 研究短推理链性能

  10. 探讨 LCPO 在 Short-CoT 场景下的表现;
  11. 检查在有限 token 预算下是否仍能高效推理。

如果您认为博文还不错,请帮忙点赞、收藏、关注。您的反馈是我的原动力

原创文章
1FFN前馈网络与激活函数技术解析:Transformer模型中的关键模块
2Transformer掩码技术全解析:分类、原理与应用场景
3【大模型技术】Attention注意力机制详解一
4Transformer模型中位置编码(Positional Embedding)技术全解析(三)
5Transformer模型中位置编码(Positional Embedding)技术全解析(二)
6Transformer模型中位置编码(Positional Embedding)技术全解析(一)
7自然语言处理核心技术词嵌入(Word Embedding),从基础原理到大模型应用
8DeepSeek-v3:基于MLA的高效kv缓存压缩与位置编码优化技术
9

【Tokenization第二章】分词算法深度解析:BPE、WordPiece与Unigram的原理、实现与优化

10Tokenization自然语言处理中分词技术:从传统规则到现代子词粒度方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/84788.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在 WSL 中安装 JetBrains Toolbox:完整指南

JetBrains Toolbox 是一个非常实用的工具,它可以帮助开发者轻松管理 JetBrains 的各种开发工具,如 IntelliJ IDEA、PyCharm、WebStorm 等。通过它,你可以快速安装、更新和管理这些工具,极大地提高了开发效率。而在 WSL 环境中安装…

ZooKeeper 命令操作

文章目录 Zookeeper 数据模型Zookeeper 服务端常用命令Zookeeper 客户端常用命令 Zookeeper 数据模型 ZooKeeper 是一个树形目录服务,其数据模型和Unix的文件系统目录树很类似,拥有一个层次化结构。这里面的每一个节点都被称为: ZNode,每个节…

Turf.js:前端地理空间分析的瑞士军刀

在Web开发中,地理空间数据处理已成为许多应用的核心需求。从地图可视化到位置服务,再到复杂的数据分析,前端开发者需要强大的工具来处理这些任务。Turf.js 作为一款轻量级、模块化的地理空间分析库,凭借其丰富的功能和易用性,成为前端开发者的得力助手。本文将深入探讨 Tu…

大模型微调

使用 Ollama 微调大语言模型(如 LLaMA、Mistral、Gemma 等)主要是围绕 LoRA(Low-Rank Adaptation)或者 QLoRA 等轻量级微调技术进行的。Ollama 本身是一个部署和运行本地大语言模型的平台,但其微调能力有限&#xff0c…

《自动驾驶轨迹规划实战:Lattice Planner实现避障路径生成(附可运行Python代码)》—— 零基础实现基于离散优化的避障路径规划

《自动驾驶轨迹规划实战:Lattice Planner实现避障路径生成(附可运行Python代码)》 —— 零基础实现基于离散优化的避障路径规划 一、为什么Lattice Planner成为自动驾驶的核心算法? 在自动驾驶的路径规划领域,Lattice…

切换到旧提交,同时保证当前修改不丢失

在 Git 中&#xff0c;可以通过以下几种方式切换到之前的提交&#xff0c;同时保留当前的提交&#xff08;即不丢失工作进度&#xff09;&#xff1a; 1. 使用 git checkout 创建临时分离头指针&#xff08;推荐用于查看&#xff09; git checkout <commit-hash>这会让…

zookeeper 操作总结

zookeeper 中的节点类型 节点类型命令选项说明‌持久节点‌无选项&#xff08;默认&#xff09;永久存在&#xff0c;除非手动删除。‌临时节点‌-e与客户端会话绑定&#xff0c;会话结束自动删除&#xff08;‌不能有子节点‌&#xff09;。‌顺序节点‌-s节点名自动追加递增…

nova14 ultra,是如何防住80°C热水和10000KPa水压冲击的?

暴雨突袭&#xff0c;手忙脚乱护住背包&#xff0c;却担心手机被雨水浸湿&#xff1b;泳池里想记录美好时刻&#xff0c;却担心手机掉入水中 &#xff1b;厨房里充满了高温水汽&#xff0c;近距离拍摄美食瞬间&#xff0c;手机屏幕花屏&#xff0c;让人失去了对美食的兴趣…… …

flutter加载dll 报错问题

解决flutter加载dll 报错问题 LoadLibrary 报错 126 or 193 明确一点&#xff1a;flutter构建exe 时默认是MSVC的。 1. 先检查dll 的位数是否满足 file ***.dll output: PE32 executable (DLL) (console) x86-64, for MS Windows, 19 sections 这种是64位的机器。 满足的话可…

Mac 版不能连接华为 GaussDB 吗?我看 Windows 版可以连接?

&#x1f9d1;‍&#x1f4bb; GaussDB 用户 Mac 版不能连接华为 GaussDB 吗&#xff1f;我看Windows 版可以连接。 &#x1f9d1;‍&#x1f527; 官方技术中心 由于 GaussDB 数据库本身未支持 macOS 系统&#xff0c;所以在 macOS 上的 Navicat 中也未支持该数据库。 &…

【MySQL成神之路】MySQL索引相关介绍

1 相关理论介绍 一、索引基础概念 二、索引类型 1. 按数据结构分类 2. 按功能分类 三、索引数据结构原理 B树索引特点&#xff1a; 哈希索引特点&#xff1a; 四、索引使用原则 1. 创建索引原则 2. 避免索引失效情况 五、索引优化策略 六、索引维护与管理 七、特殊…

五、web安全--XSS漏洞(1)--XSS漏洞利用全过程

本文章仅供学习交流&#xff0c;如作他用所承受的法律责任一概与作者无关1、XSS漏洞利用全过程 1.1 寻找注入点&#xff1a;攻击者首先需要找到目标网站中可能存在XSS漏洞的注入点。这些注入点通常出现在用户输入能够直接输出到页面&#xff0c;且没有经过适当过滤或编码的地方…

使用 Shell 脚本实现 Spring Boot 项目自动化部署到 Docker(Ubuntu 服务器)

使用 Shell 脚本实现 Spring Boot 项目自动化部署到 Docker&#xff08;Ubuntu 服务器&#xff09; 在日常项目开发中&#xff0c;我们经常会将 Spring Boot 项目打包并部署到服务器上的 Docker 环境中。为了提升效率、减少重复操作&#xff0c;我们可以通过 Shell 脚本实现自动…

高考加油(Python+HTML)

前言 询问DeepSeek根据自己所学到的知识来生成多个可执行的代码&#xff0c;为高考学子加油。最开始生成的都会有点小问题&#xff0c;还是需要自己调试一遍&#xff0c;下面就是完整的代码&#xff0c;当然了最后几天也不会有多少人看&#xff0c;都在专心的备考。 Python励…

HTTP协议接口三种测试方法之-JMeter(保姆教程)

在当今 API 驱动的开发世界中&#xff0c;高效、可靠的 HTTP 接口测试是保障应用质量的关键。作为开源性能测试工具中的王者&#xff0c;Apache JMeter 不仅擅长压力测试&#xff0c;更是进行功能性和回归测试的利器。本文将手把手教你如何用 JMeter 构建强大的 HTTP 测试计划&…

聊聊JVM怎么调优?(实战总结)

JVM 核心配置与调优指南 一、堆内存与年轻代配置&#xff08;影响最大&#xff09; 堆内存大小&#xff1a; 在资源允许的前提下&#xff0c;堆内存应尽可能设置得更大。关键点&#xff1a; 必须将堆内存的最大值 (-Xmx) 和最小值 (-Xms) 设置为相同值。动态扩容会触发 Full G…

开疆智能Profinet转Profibus网关连接费斯托阀岛总线模块配置案例

本案例是通过开疆智能Profibus转Profinet网关将费托斯阀岛接入到西门子1200PLC的配置案例。 首先我们先了解一下Profibus报文以及他的通讯原理。 除了起始符 SD 和结束符 ED 这些固定数值之外&#xff0c;还有功能码&#xff08;Function Code, FC&#xff09;和服务访问点&…

ARM内核一览

经常看介绍某某牛批芯片用的又是ARM什么核&#xff0c;看的云里雾里&#xff0c;所以简单整理整理。&#xff08;内容来自官网和GPT&#xff09; 1 ARM 内核总体分类 系列特点应用场景Cortex-M超低功耗、低成本、实时性嵌入式系统、微控制器、IoTCortex-R高可靠性、硬实时汽车…

RT Thread Nano V4.1.1 rtconfig.h 注释 Configuration Wizard 格式

rtcomfig.h 以下是对 [rtconfig.h](file://c:\Users\admin\Downloads\rtthread-nano-master\rt-thread\bsp\stm32f407-msh\RT-Thread\rtconfig.h) 文件中每一个配置项的详细注释说明: 基本配置(Basic Configuration) [RT_THREAD_PRIORITY_MAX](file://c:\Users\admin\Downl…

UniApp网页版集成海康视频播放器

注意&#xff1a;本人全部集成好后使用最新的海康平台下载插件进行替换后就不能预览视频 使用Uni插件进行集成&#xff1a;海康视频H5播放器组件 - DCloud 插件市场 CSDN资源下载&#xff1a;https://download.csdn.net/download/wangdaoyin2010/90910975 注意&#xff1a;初…