大型语言模型的白日梦循环

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

尽管大型语言模型已经展现出令人惊叹的能力，但至今尚未取得真正意义上的突破性发现。这引发了一个耐人寻味的疑问：为什么会这样？

有一种可能的解释是，这类模型缺乏人类思维的一些根本特征：它们是静态的，无法从经验中持续学习，也没有类似人脑“默认模式网络”（Default Mode Network, DMN）那样的后台处理机制——而这恰恰是人类灵感和顿悟的重要来源之一。

为了应对这一局限，有研究者提出了一种称为“白日梦循环”（Day-Dreaming Loop, DDL）的设想。这是一种在背景中运行的过程，持续地从模型的记忆中抽取两个概念的组合，由生成模型探索它们之间非显而易见的联系，再由评估模型筛选出具有真正价值的创见。这些被识别出的想法将被重新注入系统的记忆中，形成一种复利式的反馈机制：新生成的想法又成为未来概念组合的种子。

不过，这一机制所需的代价——即所谓的“白日梦税”（daydreaming tax）——可能非常高昂，因为从大量组合中发现有价值的新颖点的命中率极低。然而，这种“浪费”可能正是创新的必要代价。同时，这也为模型蒸馏（model distillation）设置了障碍，因为白日梦机制所产生的洞见往往是无人会主动提出的问题。

从战略角度来看，这一结论具有反直觉的意味：为了让 AI 对终端用户来说更加高效且低成本，或许必须先建构那些大多数算力都用于无用搜索的“昂贵系统”。未来，可能会出现一类专用于生成专有训练数据的高成本白日梦型 AI，而真正面向大众的，是继承其成果的高效、小型模型。这种路径，可能为穿越即将到来的“数据壁垒”提供一条出路。

美国作家威廉·费菲尔德（William Fifield）在1964年的一篇综合访谈中，曾引用毕加索的一句话作为回应当时兴起的“电子大脑”现象：“但它们没用。它们只能给出答案。”这句话意味深长，似乎也道出了当前 LLM 研究的瓶颈。

在播客主持人帕特尔（Dwarkesh Patel）看来，至今尚未有任何大型语言模型展现出真正出人意料的突破性洞察，哪怕它们具备极高的知识密度和测试分数。这是一个真正的谜题——因为在提示适当时，这些模型似乎能以令人振奋的方式整合信息，几乎接近“洞察”的边缘，但始终未能跨越那一关键点。究竟缺少了什么？

有两项关键的“缺失能力”被认为是原因之一：

一、持续学习（Continual Learning）

当前主流 LLM 都是冻结状态的神经网络（frozen NNs），即在部署后不再发生参数更新。这意味着它们无法进行动态的再训练，也无法从新的经验中获得反馈。尽管“动态评估”（dynamic evaluation）等技术早已存在并可用于在线学习，但主流 LLM 并未采用。

因此，它们常常困在自身的“先验”知识中，无法摆脱初始猜测和显而易见的答案。人类历史中从未有任何一个患有顺行性遗忘症（anterograde amnesia）的人能创造出重大创新，而 LLM 恰恰面临类似状况。

二、持续思考（Continual Thinking）

另一项区别则是人类研究者从不停止思考。人脑即使在睡眠中，也在不断处理信息，这部分解释了为何大脑在静息状态下也消耗大量能量。

科学与创造力研究强调时间与睡眠在激发“孵化效应”（incubation effect）方面的重要性。人类的灵感往往并非出现在主动思考时，而是在放松或“放空”时突然出现。这种“涌现思维”的例子数不胜数：从过时的冷笑话到错过的暗示，从突如其来的焦虑想法到意外的灵感闪现。

这些思维的爆发往往是无意识且不可预测的，与当前所专注的任务毫无关联。例如，一位作者正在撰写游戏美学的文章时，突发灵感想到了“LLM 的默认模式网络应该是什么样子”这一问题，从而催生了这篇设想。

假设：白日梦循环机制（Day-Dreaming Loop）

那么，这种思维过程是如何、何时、何地发生的？

显然，它并非发生在显意识中，且通常是在无意间发生的。这是一种普遍现象，并不易耗尽：即便历经几十年，许多人仍然定期体验到这些突发念头。它可能是生物学上昂贵的过程，因为其本质涉及复杂的计算和神经资源消耗。推测多数动物并不具备类似“灵光一现”的能力。

其机制可能是并行的，因为人脑可能同时在多个神经通路中进行概念组合。它可能部分与海马体在睡眠中进行的记忆重播过程相关，但又不完全等同，因为白日梦式的思考也常发生在醒着时处理短期记忆的过程中。

此外，它可能被集中注意力的任务所抑制。例如，研究者发现，在专注阅读或编码时，这种突发想法几乎停止；而一旦暂停，灵感就如潮水般涌来。

因此提出了“白日梦循环”这一模型：人脑在空闲时随机提取两个记忆片段进行组合，并对结果进行评估，若认为“有趣”，便晋升为显意识，甚至可能写入长期记忆。这一机制虽然简单，却可能是人类创新的核心引擎。

研究者指出，不需要复杂的高阶组合就能实现持续创新，因为一旦新的组合进入知识库，它就会生成更多潜在的新组合。在经济创新模型中，查尔斯·琼斯（Charles I. Jones, 2021）也曾展示，即使“低垂果实”被优先采摘，创新仍然可以持续增长，甚至呈指数爆炸。

不过，该机制也极为浪费，大多数组合毫无价值，难以优化。由于人脑会随时间改变，过去被判断为无趣的组合在将来可能变得有价值，因此也必须反复检查。

LLM 对应机制的可能性

当前的大型语言模型并不具备任何类似机制。它们需要明确的提示才能开始任务，不会主动对记忆中的事实进行组合或生成内在独白。

然而，这种机制的实现并非遥不可及。例如，可从向量数据库中随机抽取两个概念，然后使用“头脑风暴”提示语，接着进行价值判断。具体提示可以包括如下要素：

生成模型任务：

你是一位富有创意的综合思维者。请在以下两个概念之间寻找深刻、非显而易见且具有潜在突破意义的联系。不要陈述显而易见之处，而应生成假设、隐喻、研究问题或创新观点，并对推理过程加以解释。
概念一：{Chunk A}
概念二：{Chunk B}

评价模型任务：

请从以下维度对生成的假设进行评分（1-10）：
新颖性：该想法是否令人惊讶且非显而易见？
连贯性：推理是否合乎逻辑？
实用性：该想法能否引发测试性假设、新产品或解决问题的可能？
并简要说明评分理由。

障碍与问题

在效率、质量与成本之间，难以三者兼得。如果以人脑为类比，“白日梦机制”的成本上限可能是普通 LLM 推理成本的 20 倍，这对实际应用提出了巨大挑战。

这也解释了为何 LLM 在经济层面优于人类：它们主动避开了“生成新颖性”和“持续代理”的高代价。因为即便偶尔有突破，也很少有用户愿意为其额外付出几十倍的费用。

而且，由于突破往往来自最偏僻的概念组合，也就无法通过简单筛选降低计算成本。即便用户对系统输出随机冷笑话或吸血鬼假新闻感到不满，也无从改进。

深远影响

未来可能出现以“白日梦 AI”为核心的全新训练体系。这些系统专门用于生成高质量、原创性的专有训练数据，从而喂养下一代更加高效的小型 LLM。

这类机制也将形成一种天然的“数据护城河”（data moat）：它们生成的内容不是用户事先知道要问的问题，因此无法通过 API 日志或蒸馏方式轻易复制。只有那些愿意承担“白日梦税”的研究者、高端用户或自治智能体才可能真正从中受益。

考虑到强化学习（RL）规模法则和持续上升的资本投入，未来的语言模型可能需要先变得“缓慢且昂贵”，才能在终端实现“快速且便宜”。