大型语言模型的白日梦循环

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

尽管大型语言模型已经展现出令人惊叹的能力,但至今尚未取得真正意义上的突破性发现。这引发了一个耐人寻味的疑问:为什么会这样?

有一种可能的解释是,这类模型缺乏人类思维的一些根本特征:它们是静态的,无法从经验中持续学习,也没有类似人脑“默认模式网络”(Default Mode Network, DMN)那样的后台处理机制——而这恰恰是人类灵感和顿悟的重要来源之一。

为了应对这一局限,有研究者提出了一种称为“白日梦循环”(Day-Dreaming Loop, DDL)的设想。这是一种在背景中运行的过程,持续地从模型的记忆中抽取两个概念的组合,由生成模型探索它们之间非显而易见的联系,再由评估模型筛选出具有真正价值的创见。这些被识别出的想法将被重新注入系统的记忆中,形成一种复利式的反馈机制:新生成的想法又成为未来概念组合的种子。

不过,这一机制所需的代价——即所谓的“白日梦税”(daydreaming tax)——可能非常高昂,因为从大量组合中发现有价值的新颖点的命中率极低。然而,这种“浪费”可能正是创新的必要代价。同时,这也为模型蒸馏(model distillation)设置了障碍,因为白日梦机制所产生的洞见往往是无人会主动提出的问题。

从战略角度来看,这一结论具有反直觉的意味:为了让 AI 对终端用户来说更加高效且低成本,或许必须先建构那些大多数算力都用于无用搜索的“昂贵系统”。未来,可能会出现一类专用于生成专有训练数据的高成本白日梦型 AI,而真正面向大众的,是继承其成果的高效、小型模型。这种路径,可能为穿越即将到来的“数据壁垒”提供一条出路。

美国作家威廉·费菲尔德(William Fifield)在1964年的一篇综合访谈中,曾引用毕加索的一句话作为回应当时兴起的“电子大脑”现象:“但它们没用。它们只能给出答案。”这句话意味深长,似乎也道出了当前 LLM 研究的瓶颈。

在播客主持人帕特尔(Dwarkesh Patel)看来,至今尚未有任何大型语言模型展现出真正出人意料的突破性洞察,哪怕它们具备极高的知识密度和测试分数。这是一个真正的谜题——因为在提示适当时,这些模型似乎能以令人振奋的方式整合信息,几乎接近“洞察”的边缘,但始终未能跨越那一关键点。究竟缺少了什么?

有两项关键的“缺失能力”被认为是原因之一:

一、持续学习(Continual Learning)

当前主流 LLM 都是冻结状态的神经网络(frozen NNs),即在部署后不再发生参数更新。这意味着它们无法进行动态的再训练,也无法从新的经验中获得反馈。尽管“动态评估”(dynamic evaluation)等技术早已存在并可用于在线学习,但主流 LLM 并未采用。

因此,它们常常困在自身的“先验”知识中,无法摆脱初始猜测和显而易见的答案。人类历史中从未有任何一个患有顺行性遗忘症(anterograde amnesia)的人能创造出重大创新,而 LLM 恰恰面临类似状况。

二、持续思考(Continual Thinking)

另一项区别则是人类研究者从不停止思考。人脑即使在睡眠中,也在不断处理信息,这部分解释了为何大脑在静息状态下也消耗大量能量。

科学与创造力研究强调时间与睡眠在激发“孵化效应”(incubation effect)方面的重要性。人类的灵感往往并非出现在主动思考时,而是在放松或“放空”时突然出现。这种“涌现思维”的例子数不胜数:从过时的冷笑话到错过的暗示,从突如其来的焦虑想法到意外的灵感闪现。

这些思维的爆发往往是无意识且不可预测的,与当前所专注的任务毫无关联。例如,一位作者正在撰写游戏美学的文章时,突发灵感想到了“LLM 的默认模式网络应该是什么样子”这一问题,从而催生了这篇设想。

假设:白日梦循环机制(Day-Dreaming Loop)

那么,这种思维过程是如何、何时、何地发生的?

显然,它并非发生在显意识中,且通常是在无意间发生的。这是一种普遍现象,并不易耗尽:即便历经几十年,许多人仍然定期体验到这些突发念头。它可能是生物学上昂贵的过程,因为其本质涉及复杂的计算和神经资源消耗。推测多数动物并不具备类似“灵光一现”的能力。

其机制可能是并行的,因为人脑可能同时在多个神经通路中进行概念组合。它可能部分与海马体在睡眠中进行的记忆重播过程相关,但又不完全等同,因为白日梦式的思考也常发生在醒着时处理短期记忆的过程中。

此外,它可能被集中注意力的任务所抑制。例如,研究者发现,在专注阅读或编码时,这种突发想法几乎停止;而一旦暂停,灵感就如潮水般涌来。

因此提出了“白日梦循环”这一模型:人脑在空闲时随机提取两个记忆片段进行组合,并对结果进行评估,若认为“有趣”,便晋升为显意识,甚至可能写入长期记忆。这一机制虽然简单,却可能是人类创新的核心引擎。

研究者指出,不需要复杂的高阶组合就能实现持续创新,因为一旦新的组合进入知识库,它就会生成更多潜在的新组合。在经济创新模型中,查尔斯·琼斯(Charles I. Jones, 2021)也曾展示,即使“低垂果实”被优先采摘,创新仍然可以持续增长,甚至呈指数爆炸。

不过,该机制也极为浪费,大多数组合毫无价值,难以优化。由于人脑会随时间改变,过去被判断为无趣的组合在将来可能变得有价值,因此也必须反复检查。

LLM 对应机制的可能性

当前的大型语言模型并不具备任何类似机制。它们需要明确的提示才能开始任务,不会主动对记忆中的事实进行组合或生成内在独白。

然而,这种机制的实现并非遥不可及。例如,可从向量数据库中随机抽取两个概念,然后使用“头脑风暴”提示语,接着进行价值判断。具体提示可以包括如下要素:

生成模型任务:

你是一位富有创意的综合思维者。请在以下两个概念之间寻找深刻、非显而易见且具有潜在突破意义的联系。不要陈述显而易见之处,而应生成假设、隐喻、研究问题或创新观点,并对推理过程加以解释。

概念一:{Chunk A}
概念二:{Chunk B}

评价模型任务:

请从以下维度对生成的假设进行评分(1-10):

  • 新颖性:该想法是否令人惊讶且非显而易见?

  • 连贯性:推理是否合乎逻辑?

  • 实用性:该想法能否引发测试性假设、新产品或解决问题的可能?

并简要说明评分理由。

障碍与问题

在效率、质量与成本之间,难以三者兼得。如果以人脑为类比,“白日梦机制”的成本上限可能是普通 LLM 推理成本的 20 倍,这对实际应用提出了巨大挑战。

这也解释了为何 LLM 在经济层面优于人类:它们主动避开了“生成新颖性”和“持续代理”的高代价。因为即便偶尔有突破,也很少有用户愿意为其额外付出几十倍的费用。

而且,由于突破往往来自最偏僻的概念组合,也就无法通过简单筛选降低计算成本。即便用户对系统输出随机冷笑话或吸血鬼假新闻感到不满,也无从改进。

深远影响

未来可能出现以“白日梦 AI”为核心的全新训练体系。这些系统专门用于生成高质量、原创性的专有训练数据,从而喂养下一代更加高效的小型 LLM。

这类机制也将形成一种天然的“数据护城河”(data moat):它们生成的内容不是用户事先知道要问的问题,因此无法通过 API 日志或蒸馏方式轻易复制。只有那些愿意承担“白日梦税”的研究者、高端用户或自治智能体才可能真正从中受益。

考虑到强化学习(RL)规模法则和持续上升的资本投入,未来的语言模型可能需要先变得“缓慢且昂贵”,才能在终端实现“快速且便宜”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/91486.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/91486.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Gaussian Haircut论文】在Deepseek和Chatgpt的帮助下慢速了解核心方法

3.Method 一、 1.核心目标 输入:多张从不同角度拍摄的头发照片。输出:3D发型模型,且模型由发丝构成(即每根头发被建模为独立的曲线/线段,而非体积/网络)。 2.数据预处理 在正式重建前,需要从输入…

众趣SDK重磅升级:空间物联IOT新视界,赋能实景三维场景深度应用

近日,空间数字孪生云服务行业领导者—众趣科技宣布旗下核心产品云服务平台Qverse SDK迎来里程碑式升级!本次升级聚焦行业前沿需求,重磅推出IoT设备监控系统、iframe跨平台页面无缝集成、BI数据智能三大解决方案,旨在将三维空间计算…

021_自然语言处理应用

自然语言处理应用 目录 NLP应用概述文本理解技术文本生成应用语言分析工具多语言处理专业领域应用实践案例 NLP应用概述 核心能力范围 文本理解 语义理解:深度理解文本含义和上下文实体识别:识别人名、地名、机构名等命名实体关系提取:…

小程序中状态管理Redux

Redux 是一个 集中式 状态管理框架,所有状态存储在一个 全局 Store 中,并通过 Action 触发 Reducer 进行数据更新。。1.安装npm install redux miniprogram-computed2.创建// store.js import { createStore } from "redux";// 定义初始状态 c…

c++:类型转换函数

简介 在C++中,类型转换运算符(也称为类型转换函数或转换函数)是一种特殊的成员函数,它允许将一个类类型的对象转换为其他类型。转换运算符的声明形式如下: operator type() const; 关键点 ​​声明​​:在类内部声明,没有返回类型(因为type已经表示了返回类型),没…

Java 8 jdk1.8下载及安装教程和环境变量配置

1. 概述 本文介绍如何在 Windows 10 系统下下载并安装 Java 开发工具包(JDK 1.8),适合 Java 初学者或需要搭建开发环境的用户。 2. 安装包下载 2.1 安装包获取 由于 Oracle 官网下载需注册登录,可选择以下替代方式获取 JDK 安装…

git@github.com: Permission denied (publickey).

摘要:记录新电脑需要clone和push代码到GitHub error: Cloning into FPGA_common… gitgithub.com: Permission denied (publickey). fatal: Could not read from remote repository. 遇到的这个错误信息: gitgithub.com: Permission denied…

【Linux基础知识系列】第五十四篇 - 网络协议基础:TCP/IP

在网络通信中,TCP/IP 协议是实现设备之间数据传输的基础。TCP/IP 协议栈定义了数据在网络中传输的方式,从应用层到网络层,再到物理层,每一层都有其特定的功能和协议。理解 TCP/IP 协议的基本概念和工作原理,对于网络管…

《python语言程序设计》2018版第8章8题编写函数实现二进制转十进制(字符串变整数)!!整数没法进行下标

二进制转十进制前言第1章幻想的草稿第2章如何把这些幻想的数字带到现实的算式中第3章看来是我想多了第4章 空值不一定是最好的选择第5章 成功了前言 将字符串变成整数,但是整数没法像字符串一样做下标 反复尝试最好的手段,是多多打印 第1章幻想的草稿 …

LeetCode20

一个新手小白开始算法的学习之路,以后会不定期分享个人做完一些题目的笔记,使用语言为JavaScript//声明一个名为isValid的函数,接收一个参数s(要检查的字符串) let isValid function(s) {//初始化栈//创建一个空数组s…

Spring Boot 自动配置:从 spring.factories 到 AutoConfiguration.imports 的演变

引言 Spring Boot 的自动配置机制是其【开箱即用】特性的核心支撑,通过减少显式配置和简化开发流程,显著提升了开发效率。随着 Spring Boot 版本的迭代,自动配置的实现机制也在不断优化。本文将深入解析 spring.factories 和 AutoConfigurat…

Redis7 底层数据结构解析

Redis底层数据结构深度解析(基于Redis 7.2.5)本文深入剖析Redis核心数据类型的底层实现机制,涵盖String、Hash、List、Set、Zset的实现原理及版本演进差异。一、Redis数据存储核心机制 Redis所有数据以redisObject结构统一封装: t…

《C++初阶之STL》【auto关键字 + 范围for循环 + 迭代器】

【auto关键字 范围for循环 迭代器】目录前言:--------------- auto关键字 ---------------1. 什么是auto?2. 使用关键字auto时需要注意什么?3. 怎么使用auto关键字?--------------- 范围for循环 ---------------1. 什么是范围fo…

ionic 切换开关操作指南

ionic 切换开关操作指南 引言 在移动应用开发中,切换开关(Toggle)是一种常见的用户界面元素,它允许用户通过简单的操作来开启或关闭某个功能或设置。在Ionic框架中,切换开关提供了丰富的API和样式,使得开发…

【笔记记录-Linux文件权限与目录结构详解】

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 ​💫个人格言:“没有罗马,那就自己创造罗马~” 文章目录目录结构解析Summarypart3part4part5目录结构解析 drwxr-xr-x 2 student student 4096 10月 8 2023…

【Complete Search】-基础完全搜索-Basic Complete Search

文章目录Solution - Maximum Distance涉及遍历整个解空间的问题资料-resources 6 - Complete Search 在很多问题中(尤其是在 USACO Bronze 级别),只需检查解空间中的所有可能情况就足够了,比如所有元素、所有元素对、所有子集&…

神经网络的层与块

什么是层?什么是块?在深度学习中,层(Layer) 和块(Block) 是构建神经网络的核心概念,尤其在 PyTorch、TensorFlow 等框架中,二者既紧密关联又有明确分工。理解它们的定义、…

如何用Qt写一个安卓Android应用

对于不会安卓开发的同胞来讲(比如我),想要做一个安卓应用(.apk)使用Qt是一个不错的方法,今天就来聊聊如何使用Qt结合C写一个安卓应用。 首先我们得拥有一个Qt,我使用的是5.14.2版本的,新版本可直接到qt官网去下载qt.io,老版本的现在qt官网不支…

泰语OCR识别技术方案

一、痛点分析1.1 泰语文字特性带来的挑战复杂字符集:泰语有44个辅音字母、15个元音符号、4个声调符号和10个数字,组合形式多样上下叠加结构:泰文字符常在垂直方向叠加组合,增加分割难度无词间空格:泰语单词间无明确分隔…