SynAdapt：通过合成连续思维链实现大语言模型的自适应推理

摘要：尽管链式思维（CoT）推理能提升模型性能，却因离散 CoT 标记（DCoT）的生成而带来显著时间开销。连续 CoT（CCoT）是更高效的替代方案，但现有方法受限于间接微调、对齐不足或目标不一致。为此，我们提出创新高效的推理框架 SynAdapt：首先合成高质量 CCoT，作为大模型精确且有效的对齐目标，使其直接学会连续推理并给出正确答案；其次，仅凭 CCoT 难以解决难题，SynAdapt 引入难度分类器，结合问题上下文与 CCoT 在简短推理后识别困难样本，再自适应提示模型重新思考，以进一步提升表现。跨不同难度基准的大量实验充分验证了该方法的有效性，在准确率和效率之间实现了最佳平衡。

论文信息

论文标题: "SynAdapt: Learning Adaptive Reasoning in Large Language Models via Synthetic Continuous Chain-of-Thought"
作者: "Jianwei Wang, Ziming Wu, Fuming Lai, Shaobing Lian, Ziqian Zeng"
会议/期刊: "arXiv preprint arXiv:2508.00574v1"
发表年份: 2025
原文链接: "https://arxiv.org/pdf/2508.00574v1"
代码链接: ""
关键词: ["连续思维链", "自适应推理", "大语言模型", "效率优化", "难度分类"]

核心要点

SynAdapt创新性地通过生成合成连续思维链（Synthetic CCoT） 作为精准对齐目标，并结合难度分类器动态调整推理策略，在保持高精度的同时显著提升推理效率，实现了准确性与效率的最优平衡。

研究背景：思维链推理的效率困境

近年来，思维链（Chain-of-Thought, CoT） 推理已成为提升大语言模型（LLM）复杂任务解决能力的关键技术。然而，传统离散思维链（DCoT）生成大量自然语言 tokens，导致推理速度慢、计算成本高的问题。为解决这一痛点，连续思维链（Continuous CoT, CCoT） 应运而生，它通过LLM的隐藏状态进行推理，跳过冗余的token生成，理论上能在保持推理能力的同时提升效率。

现有CCoT方法却面临三大挑战：

间接微调（Indirect Training）：如Coconut通过课程学习逐步替换DCoT，但缺乏显式对齐，导致推理能力损失
对齐不充分（Partial Alignment）：如CODI仅对齐DCoT和CCoT的最后一个token状态，忽略中间推理过程
目标不一致（Incoherent Target）：如CompressCoT仅对齐部分"重要token"，破坏了推理链的连贯性

图1：SynAdapt与其他CCoT方法的对比。SynAdapt通过合成CCoT实现完全对齐且目标一致，而其他方法存在间接训练、单一对齐或目标不一致等问题

方法总览：SynAdapt的双阶段自适应推理框架

SynAdapt提出了一个两阶段框架，通过合成CCoT生成和自适应推理策略，同时解决准确性和效率问题。

核心创新点

合成连续思维链（Synthetic CCoT）：生成高质量连续思维链作为对齐目标，替代传统DCoT
动态难度感知：训练难度分类器，根据问题复杂度动态选择推理策略
全对齐微调：通过多损失函数优化，实现思维链的完整对齐

SynAdapt框架图

图2：SynAdapt框架分为微调阶段（上）和推理阶段（下）。微调阶段生成合成CCoT并训练难度分类器；推理阶段根据问题难度动态调整推理策略

关键技术解析

1. 合成CCoT生成：精准对齐的基础

SynAdapt首先为每个问题生成合成连续思维链（Z_syn），作为后续微调的"黄金标准"。具体步骤：

随机初始化一个长度为m的连续向量Z_syn
固定LLM参数，仅优化Z_syn，使LLM能基于问题和Z_syn生成正确答案
通过两个损失函数优化：
- 答案损失（L_ans）：确保Z_syn引导LLM生成正确答案
- DCoT对齐损失（L_dcot）：使Z_syn的隐藏状态与真实DCoT的隐藏状态对齐

这一过程类似为LLM定制"思维导航图"，确保模型学习到高效且准确的推理路径。

2. 增强微调：迭代优化思维链

微调阶段采用迭代优化策略，训练LLM将随机初始化的"草稿思维链"（Draft CCoT）逐步优化为与合成CCoT对齐的最终思维链：

从无意义的重复token序列初始化草稿思维链
通过LoRA模块微调LLM，迭代精炼草稿思维链（默认4轮迭代）
多损失函数联合优化：
- 对齐损失（L_align）：使最终思维链与合成CCoT对齐
- 答案损失（L’_ans）：确保最终思维链能引导LLM生成正确答案

3. 难度分类器：智能任务分诊

为解决简单问题过度推理和复杂问题推理不足的矛盾，SynAdapt训练了一个难度分类器（δ）：

输入：问题本身和对应的CCoT
输出：0-1之间的难度分数
训练策略：构造难易问题对，通过对比损失（L_diff）训练分类器

推理时，根据难度分数动态调整策略：

简单问题（分数<τ）：直接基于CCoT生成答案，追求效率
困难问题（分数≥τ）：丢弃CCoT，提示LLM重新进行详细推理，确保准确性

实验结果：全面超越现有基线

1. 准确性-效率权衡优势

在五大数学推理基准测试（AIME25、AIME24、AMC23、MATH500、GSM8K）上，SynAdapt展现出显著优势：

主要实验结果表

表1：SynAdapt与各基线方法在准确性敏感场景和效率敏感场景的对比

准确性敏感场景（τ=0.5）：
- 平均准确率达69.0%，与原始模型相当
- 平均生成长度缩短39.7%（从7786.8→4694.8 tokens）
- Rel-G指标达1.58，显著优于CoD（1.53）和NoThinking（1.21）
效率敏感场景（τ=1.0）：
- 平均长度仅584.9 tokens，比原始模型缩短92.5%
- 准确率保持50.3%，远超Coconut（47.6%）和CODI（45.9%）
- Rel-G指标达9.14，为所有方法最高