Better Faster Large Language Models via Multi-token Prediction 原理

目录

模型结构:

Memory-efficient implementation:

实验:

1. 在大规模模型上效果显著:

2. 在不同类型任务上的效果:

为什么MLP对效果有提升的几点猜测:

1. 并非所有token对生成质量的影响相同

2. 关键选择点的权重累积机制

3. 从互信息的角度解释

4. 因果语言模型的传统因子化顺序

屈折语中的语法一致性挑战

非因果因子化顺序的优势(多token预测提升对复杂语法结构(如屈折、一致关系)的处理能力)

通过隐式建模非因果依赖,减少因局部错误导致的全局矛盾

问题:


模型结构:

单token预测:

多token预测:

model P_{\theta} 应用一个共享trunk来针对x_{t:1}产生一个latent 表示z_{t:1},接着送入到n个独立的head来并行预测未来n个tokens。

其中:

Memory-efficient implementation:

由于词表大小V远大于维度d,所以logit的计算,由(d,V)变化为 (d,V*N),是GPU memery使用的瓶颈。解决办法为序列话的计算每个独立输出头f_i的前向和反向传播过程,在trunk进行梯度累加。在计算f_{i+1}之前f_i的计算已经被释放掉。将CPU的memery峰值从O(nV+d)降低为O(V+d)

实验:

1. 在大规模模型上效果显著:

小规模模型的局限性

  • 模型容量不足:小模型(如百万或十亿参数级)难以同时捕捉多个时间步的复杂依赖关系。多令牌预测需要模型理解长距离上下文和跨步关联,这对小模型来说过于困难。

  • 边际收益低:在小规模实验中,多令牌预测可能仅带来微弱的效果提升(如困惑度略微下降),无法证明其额外计算成本是合理的。

2. 在不同类型任务上的效果:

2.1在choice task上面没有提升性能,可能需要放大模型大小才能看到效果。

2.2 在抽象文本总结任务上有提升:

2.3:归纳能力:随着模型大小增大,两者能力趋于相同。

为什么MLP对效果有提升的几点猜测:

1. 并非所有token对生成质量的影响相同

在语言模型生成文本时,某些token的决策对整体质量至关重要,而另一些则影响较小(如风格变化)。

  • 关键选择点(Choice Points):影响文本高层语义的token(例如问答中的核心术语、逻辑转折词),错误会导致回答偏离主题。

  • 无关紧要的token(Inconsequential Transitions):仅影响局部风格(如近义词替换),不影响后续内容。

2. 关键选择点的权重累积机制

关键选择点(如位置 t)的决策错误会直接影响后续多个token的生成。例如:

  • 若模型在 t 处预测错误,可能导致 t+1,t+2,…,t+n 的预测全部偏离正确路径。

  • 此时,总损失中会包含 Lt+1,Lt+2,…,Lt+n​,这些损失均与 t 处的错误相关。

数学推导(以n=5为例):

  • 关键选择点(如位置 t)的错误会影响后续5个token的预测,其总权重为:

    \sum^5_{k=1}=\frac{5*(5+1)}{2}=15

    这里的权重 k 表示第 k 步的损失对关键点的梯度贡献。

  • 无关紧要的token(如位置 t+1)仅影响后续4个token,总权重为\sum^4_{k=1}1=4 ,但实际实现中可能简化为固定权重 n。

多token预测的损失函数在反向传播时,关键点的梯度会从多个未来位置的损失中累积

  • 传统自回归:位置 t 的错误仅通过 Lt+1的梯度更新参数。

  • 多token预测:位置 t 的错误通过 Lt+1,Lt+2,…,Lt+n 的梯度叠加更新参数,形成更高的有效权重(梯度在反向传播时会自然累积到共同依赖的关键点上)。

例如,若位置 t 是生成回答中的核心术语(如“量子力学”),其错误会导致后续所有相关解释偏离正轨。此时,模型从多个未来位置的损失中接收到更强的信号,迫使它优先学习正确预测此类关键点。

3. 从互信息的角度解释

还没完全理解,理解后再更新

4. 因果语言模型的传统因子化顺序

  • 基本公式:因果语言模型(如GPT)将文本序列的联合概率分解为自回归形式,即按时间顺序逐个预测下一个token

  • 特点:生成顺序严格从前向后(如首先生成 x1​,再基于 x1​ 生成 x2​,依此类推)。

  • 局限性:某些语言结构(如屈折语中的语法一致性)需要逆向或跳跃式依赖,传统顺序可能不高效。

屈折语中的语法一致性挑战

  • 示例:德语句子
    Wie konnten auch Worte meiner durstenden Seele genügen?
    包含以下语法依赖:

    1. 动词 genügen 要求其宾语为与格(Dative Case)

    2. 名词 Seele 为阴性单数与格,因此所有修饰成分(如物主代词 meiner 和分词 durstenden)必须与其在性、数、格上一致。

  • 关键矛盾

    • 传统自回归顺序需先生成 meiner 和 durstenden,再生成 Seele 和 genügen

    • 但实际上,后续的 genügen 和 Seele 的语法要求决定了前面的 meiner 和 durstenden 的形式

非因果因子化顺序的优势(多token预测提升对复杂语法结构(如屈折、一致关系)的处理能力

  • 逆向推理:若模型能先预测后续关键token(如 genügen 和 Seele),再生成前面的修饰词(如 meiner 和 durstenden),可更高效确保语法一致性。

  • 示例中的理想顺序

    主句→genu¨gen→Seele→meiner→durstenden主句→genu¨gen→Seele→meiner→durstenden
  • 优势:先生成核心动词和名词,再根据其语法要求调整修饰词形态,避免回溯错误。

通过隐式建模非因果依赖,减少因局部错误导致的全局矛盾

  • 传统单步预测:模型仅基于上文生成下一个token,无法显式利用后续token的语法信息。

  • 多token预测(如4-token)

    1. 强制模型在生成当前token时,潜在表示(latent activations)中需编码后续多个token的信息

    2. 例如,生成 meiner 时,模型已隐式预判后续的 durstendenSeelegenügen 的语法要求,从而正确选择与格阴性单数形式。

  • 训练机制多token预测损失函数要求模型同时预测多个位置,迫使潜在表示包含未来上下文信息。

问题:

为什么多token预测可以对关键点错误施加高权重惩罚?loss不是独立的?为什么损失函数中每个token的权重与其对后续token的影响相关?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/81056.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

git merge解冲突后,add、continue提交

git merge解冲突后,add、continue提交 git merge操作冲突后,需要手动解冲突,解完冲突后,需要: git add . 然后,进入一般的正常git代码提交流程。 git合并‘merge’其他分支的个别文件到当前branch_gitbash 合并branc…

3.8.1 利用RDD实现词频统计

在本次实战中,我们通过Spark的RDD实现了词频统计功能。首先,准备了包含单词的文件并上传至HDFS。接着,采用交互式方式逐步完成词频统计,包括创建RDD、单词拆分、映射为二元组、按键归约以及排序等操作。此外,还通过创建…

应对进行性核上性麻痹,健康护理铸就温暖防线

进行性核上性麻痹(PSP)是一种罕见的神经退行性疾病,主要影响患者的运动、平衡及吞咽等功能。针对这类患者,有效的健康护理对提升其生活质量、延缓病情发展至关重要。 在日常生活护理方面,由于患者存在平衡障碍和肌肉僵…

融合蛋白质语言模型和图像修复模型,麻省理工与哈佛联手提出PUPS ,实现单细胞级蛋白质定位

蛋白质亚细胞定位(subcellular localization of a protein)是指蛋白质在细胞结构中具体的定位情况, 这对蛋白质行使其生物学功能至关重要。举个简单例子,如果把细胞想象成一个庞大的企业,其中细胞核、线粒体、细胞膜等…

lanqiaoOJ 4330:欧拉函数模板

【题目来源】 https://www.lanqiao.cn/problems/4330/learning/ 【问题描述】 这是一道模板题。 首先给出欧拉函数的定义:即 φ(n) 表示的是小于等于 n 的数中和 n 互质的数的个数。 比如说 φ(6)2,当 n 是质数的时候,显然有φ(n)n-1。 【题…

无人机电子防抖技术要点概述!

一、技术要点 1. 传感器数据融合 电子防抖需结合陀螺仪、加速度计、视觉传感器等多源数据,实时检测无人机的姿态变化和振动频率。例如,IMU(惯性测量单元)通过加速度计和陀螺仪测量飞行器的姿态和运动状态,结合视觉感…

Win10 安装单机版ES(elasticsearch),整合IK分词器和安装Kibana

一. 先查看本机windows是否安装了ES(elasticsearch),检查方法如下: 检查进程 按 Ctrl Shift Esc 组合键打开 “任务管理器”。在 “进程” 选项卡中,查看是否有 elasticsearch 相关进程。如果有,说明系统安装了 ES。 检查端口…

BIO、NIO、AIO 的区别与实战应用解析

导语: BIO、NIO 和 AIO 是后端面试中的经典话题,尤其在高并发、高性能场景下更是重中之重。本文将从面试官视角出发,深入剖析三者的区别、典型题目和实战解答,助你掌握答题技巧,轻松拿下这一高频考点! 一、…

电脑风扇转速不正常的原因

一、硬件故障或接触问题 1. 风扇本身损坏 扇叶卡顿或轴承磨损:灰尘堆积、异物缠绕(如头发、线缆)会导致扇叶转动阻力增大,发出异响并转速下降;轴承润滑脂干涸或老化会引起风扇噪音大、转速不稳定。电机故障&#xff…

运维打铁:生产服务器用户权限管理方案全解析

文章目录 一、引言二、方案设计2.1 权限模型选择2.2 角色定义2.3 权限分配2.4 用户与角色关联 三、相关代码注释(以 Linux 系统为例)3.1 用户创建与角色分配脚本3.2 权限设置脚本 四、常见问题解决4.1 用户无法登录4.2 用户权限不足4.3 权限文件修改后不…

在tp6模版中加减法

实际项目中,我们经常需要标签变量加减运算的操作。但是,在ThinkPHP中,并不支持模板变量直接运算的操作。幸运的是,它提供了自定义函数的方法,我们可以利用自定义函数解决:ThinkPHP模板自定义函数语法如下&a…

Fastjson利用链JdbcRowSetImpl分析

首先创建客户端 package com.yq1ng.vul;import com.alibaba.fastjson.JSON;/*** FastJsonTest** author yq1ng* date 2021/12/29 19:45* since 1.0.0*/ public class FastJsonTest {public static void main(String[] args) {String ser "{\"type\":\"co…

基于OAuth2-proxy和Keycloak为comfyui实现SSO

背景 comfyui无认证被漏扫后易被rce挖矿 攻击过程 https://www.oschina.net/news/340226 https://github.com/comfyanonymous/ComfyUI/discussions/5165 阿里云漏洞库关于comfyui的漏洞 https://avd.aliyun.com/search?qcomfyui&timestamp__1384n4%2BxBD0GitGQ0QD8ID%2F…

第R7周:糖尿病预测模型优化探索

文章目录 1.数据预处理1.1 设置GPU1.2 数据导入1.3 数据检查 2. 数据分析2.1 数据分布分析2.2 相关性分析 3. LSTM模型3.1 划分数据集3.2 数据集构建3.3 定义模型 4. 训练模型4.1 定义训练函数4.2 定义测试函数4.3 训练模型 5. 模型评估5.1 Loss与Accuracy图 6. 总结 &#x1f…

一些好用的Chrome 扩展程序

以下是按主要功能分类的 Chrome 扩展程序列表,包括其版本号、中文功能简述以及指向其主页或 Chrome 网上应用店页面的链接。 翻译与语言 沉浸式翻译 - 网页翻译插件 | PDF 翻译 | 免费 版本: 1.16.12 描述: 【沉浸式翻译】免费的(原文 / 译文&#xff0…

贪心算法题目合集2

贪心算法题目合集2 一般排序排队接水整数区间金银岛寻找平面上的极大点NOIP 2008 普及组 排座椅 推导排序规律NOIP 1998 提高组 拼数排序规则的正确性证明:全序关系证明拼数的贪心策略正确P2878 [USACO07JAN] Protecting the Flowers SP1842 [USACO05NOV] 奶牛玩杂技…

全方位详解微服务架构中的Service Mesh(服务网格)

一、引言 随着微服务架构的广泛应用,微服务之间的通信管理、流量控制、安全保障等问题变得日益复杂。服务网格(Service Mesh)作为一种新兴的技术,为解决这些问题提供了有效的方案。它将服务间通信的管理从微服务代码中分离出来&a…

如何在VSCode中更换默认浏览器:完整指南

引言 作为前端开发者,我们经常需要在VSCode中快速预览HTML文件。默认情况下,VSCode会使用系统默认浏览器打开文件,但有时我们可能需要切换到其他浏览器进行测试。本文将详细介绍如何在VSCode中更换默认浏览器。 方法一:使用VSCo…

【普及+/提高】洛谷P2613 【模板】有理数取余——快读+快速幂

题目来源 P2613 【模板】有理数取余 - 洛谷 题目描述 给出一个有理数 cba​,求 cmod19260817 的值。 这个值被定义为 bx≡a(mod19260817) 的解。 输入格式 一共两行。 第一行,一个整数 a。 第二行,一个整数 b。 输出格式 一个整数&a…

从编程助手到AI工程师:Trae插件Builder模式实战Excel合并工具开发

Trae插件下载链接:https://www.trae.com.cn/plugin 引言:AI编程工具的新纪元 在软件开发领域,AI辅助编程正在经历一场革命性的变革。Trae插件(原MarsCode编程助手)最新推出的Builder模式,标志着AI编程工具…