Lines of Thought in Large Language Models
《Lines of Thought in Large Language Models》(大语言模型中的思维链)聚焦于分析大语言模型(LLMs)在生成文本时,其内部向量轨迹的统计特性。
核心目标是揭示LLMs复杂的“思维过程”(即文本生成时的隐藏状态变化)能否被简化为低维流形上的随机过程,并通过少量参数刻画。
一、核心实现:低维流形建模与随机微分方程(SDE)拟合
1. 思维链的数学定义
-
向量轨迹(Lines of Thought):
当LLM处理输入文本(如提示词)时,每个Transformer层会将输入向量(词嵌入)逐步转换为输出向量,形成一条高维空间中的轨迹 h