从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型

🔥从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型

“为什么所有大模型(LLM)都长一个样?”
因为它们都有一个共同的“基因”——Decoder-Only 架构

在前面两节中,我们学习了:

  • BERT:Encoder-Only,擅长“理解语言”
  • T5:Encoder-Decoder,统一“理解+生成”

而今天,我们要进入真正引爆 AI 浪潮的主角世界——

🚀 Decoder-Only 模型,也就是当前所有大语言模型(LLM)的“母体”。

GPT-1ChatGPT,从 LLaMAGLM,它们虽然名字不同,但都基于同一个核心架构:仅由 Decoder 堆叠而成的 Transformer

本文将带你深入理解:

  1. Decoder-Only 是什么?
  2. GPT 系列如何一步步引爆 LLM 时代?
  3. LLaMA 和 GLM 又做了哪些关键改进?

准备好了吗?我们出发!


🧬 一、什么是 Decoder-Only 架构?

在原始 Transformer 中,Decoder 本是用于“生成目标语言”的部分,它包含两个注意力机制:

  1. Masked Self-Attention:只能看到前面的 token(防止“偷看答案”)
  2. Encoder-Decoder Attention:接收 Encoder 的语义信息

上图为Decoder-Only 模型的模型架构图,Decoder-Only 模型(如 GPT)做了一个大胆的决定:

❌ 去掉 Encoder
❌ 去掉 Encoder-Decoder Attention
✅ 只保留 Masked Self-Attention,自己理解、自己生成

输入文本 → Tokenizer → Embedding → N 层 Decoder → 输出文本

这种架构天生适合 自回归生成(Autoregressive Generation)

  • 输入:“今天天气”
  • 模型预测:“好”
  • 接着输入:“今天天气好”,预测下一个词……
  • 如此循环,生成完整句子。

✅ 优势:简单、高效、可无限生成文本
❌ 缺点:无法双向理解(但大模型通过“体量”弥补了这一点)


🚀 二、GPT:Decoder-Only 的开山鼻祖

1. 模型架构:Pre-LN + Masked Self-Attention

GPT 的结构与 BERT 类似,但关键区别在于:

组件GPT 做法
位置编码使用 Transformer 原始的 Sinusoidal 编码(非可学习)
LayerNorm采用 Pre-Norm:先归一化再进注意力(更稳定)
注意力机制仅保留 Masked Self-Attention,无 Encoder 交互
MLP 层早期用卷积,后期改用全连接

🔍 Pre-Norm 是什么?
在残差连接前做 LayerNorm,能有效缓解梯度消失,适合深层网络。


2. 预训练任务:CLM(因果语言模型)

GPT 使用 CLM(Causal Language Modeling),也就是:

根据前面的词,预测下一个词

例如:

  • 输入:The cat sat on the
  • 输出:mat

这本质上是 N-gram 的神经网络升级版,完全契合人类语言生成习惯。

✅ 优势:

  • 不需要标注数据,直接用文本训练
  • 与下游生成任务(如写作、对话)完全一致

3. GPT 系列的“力大砖飞”之路

模型参数量隐藏层层数预训练数据关键突破
GPT-10.12B768125GB首提“预训练+微调”
GPT-21.5B16004840GB支持 zero-shot
GPT-3175B1228896570GBfew-shot + 涌现能力
📌 GPT-3 的三大革命:
  1. 参数爆炸:1750亿参数,首次展现“涌现能力”
  2. 上下文学习(In-context Learning):无需微调,只需给几个例子(few-shot)就能学会新任务
  3. 稀疏注意力:应对长文本,提升训练效率

💡 举例:情感分类的 few-shot prompt

判断情感:'这真是个绝佳机会' → 正向(1)
示例:'你太棒了' → 1;'太糟糕了' → 0;'好主意' → 1
问题:'这真是个绝佳机会' → ?

这种“提示即编程”的方式,直接催生了 Prompt Engineering 的兴起。


🐫 三、LLaMA:开源 LLM 的标杆

如果说 GPT 是闭源王者,那 LLaMA 就是开源世界的“平民英雄”。

Meta 从 2023 年起陆续发布 LLaMA-1/2/3,成为当前开源 LLM 的事实标准架构

1. 模型架构:GPT 的“优化版”

LLaMA 整体沿用 GPT 架构,但做了多项关键改进:

改进点说明
RoPE 位置编码旋转式位置编码,支持超长上下文(8K~32K)
RMSNorm替代 LayerNorm,训练更稳定
SwiGLU 激活函数比 ReLU/GELU 更强的非线性能力
GQA(分组查询注意力)减少 KV Cache,提升推理速度

🔍 GQA 是什么?
将多个注意力头共享 KV 向量,平衡 MQA(单KV)和 MHA(全KV)的性能与效率。


2. LLaMA 系列发展史

版本参数上下文训练数据亮点
LLaMA-17B~65B2K1T token开源,引爆社区
LLaMA-27B~70B4K2T token支持对话微调
LLaMA-38B~70B8K15T token128K词表,接近GPT-4

✅ LLaMA-3 的 128K 词表大幅提升多语言和代码能力。


🇨🇳 四、GLM:中文 LLM 的独特探索

由智谱 AI(Zhipu AI)开发的 GLM 系列,是中国最早开源的大模型之一。

1. 模型架构:Post-Norm + 简洁设计

GLM 初期尝试了一条不同于 GPT 的路径:

特点说明
Post-Norm残差连接后归一化,增强鲁棒性
单层输出头减少参数,提升稳定性
GELU 激活函数平滑非线性,优于 ReLU

⚠️ 注意:主流模型多用 Pre-Norm,但 GLM 认为 Post-Norm 更稳定。


2. 预训练任务:GLM(空白填充)

GLM 的核心创新是 GLM 预训练任务——结合 MLM 和 CLM:

  • 随机遮蔽连续一段文本
  • 模型需从上下文预测这段文本,并按顺序生成其中每个 token

例如:

  • 输入:I <MASK> because you <MASK>
  • 输出:love you 和 are a wonderful person

✅ 优势:兼顾理解与生成
❌ 劣势:训练复杂,大模型时代被 CLM 取代

📌 现状:从 ChatGLM2 起,GLM 系列也回归 CLM + GPT 架构。


3. GLM 家族发展

模型参数上下文关键能力
ChatGLM-6B6B2K首个开源中文 LLM
ChatGLM2-6B6B32K支持长文本
ChatGLM3-6B6B32K支持函数调用、代码解释器
GLM-4未开源128K英文性能对标 GPT-4
GLM-4-9B9B8K开源轻量版,支持工具调用

💡 ChatGLM3 开始支持 Agent 开发,可调用工具、执行代码,迈向 AI 自主行动。


🆚 五、三大模型架构对比

模型架构预训练任务是否开源代表能力
GPTDecoder-OnlyCLM❌ 闭源通用生成、few-shot
LLaMADecoder-OnlyCLM✅ 开源高效、可定制
GLMDecoder-OnlyGLM → CLM✅ 开源中文强、支持 Agent

🌟 六、Decoder-Only 为何能统治 LLM 时代?

尽管 BERT 和 T5 在 NLU 任务上曾领先,但 Decoder-Only 最终胜出,原因如下:

  1. 生成即王道
    大模型的核心价值是“对话”“写作”“编程”,生成能力比理解更重要。

  2. 任务统一性
    所有任务都可以转化为“输入提示 → 输出答案”,无需复杂微调。

  3. 涌现能力(Emergent Ability)
    当模型足够大时,CLM 训练的模型反而在理解任务上超越 BERT。

  4. 工程友好
    架构简单,易于分布式训练和推理优化。


📣 结语:LLM 的未来,始于 Decoder-Only

从 GPT-1 的默默无闻,到 GPT-3 的横空出世,再到 LLaMA 和 GLM 的开源繁荣,

Decoder-Only 架构 用十年时间证明了:

“简单、专注、规模” 才是通向 AGI 的最短路径。

如今,几乎所有主流 LLM(包括 Qwen、Baichuan、Yi 等)都基于这一架构。

🔁 所以,要理解大模型,你必须先读懂 GPT。

📚 参考资料:

  • 《Language Models are Few-Shot Learners》(GPT-3)
  • 《LLaMA: Open and Efficient Foundation Language Models》
  • 《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》
  • HuggingFace、Meta AI、Zhipu AI 官方文档
  • https://github.com/datawhalechina/happy-llm

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/921667.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/921667.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Codeforces Round 1047 (Div. 3)

由于最近这三天的数学建模&#xff0c;让我这个精力本来就不多的AI手更加力竭了&#xff0c;没注意到昨晚的cf&#xff0c;所以今天来补题了。 比赛连接&#xff1a;比赛传送门 A题&#xff1a; You are doing a research paper on the famous Collatz Conjecture. In your e…

C++经典的数据结构与算法之经典算法思想:贪心算法(Greedy)

贪心算法&#xff08;Greedy Algorithm&#xff09;&#xff1a;通过局部最优达成全局最优的决策策略 贪心算法是一种通过每次选择局部最优解来期望全局最优解的算法思想。它不考虑未来的影响&#xff0c;仅根据当前信息做出最优选择&#xff0c;适用于具有贪心选择性质和最优子…

LangChain实战(二十一):构建自动化AI客服系统

本文是《LangChain实战课》系列的第二十一篇,将带领您构建一个完整的自动化AI客服系统。通过结合对话记忆、工具调用和业务知识库,我们将创建一个能够处理复杂客户查询的智能客服解决方案。 前言 在现代商业环境中,客户服务是企业成功的关键因素之一。传统客服系统往往面临…

一人公司智能管理系统概述

系统概述 项目结构 Al_Compny系统采用前后端分离的全栈架构&#xff0c;项目根目录下包含两个主要子目录&#xff1a;Al_Compny_backend&#xff08;后端服务&#xff09;和Al_Compny_frontend&#xff08;前端应用&#xff09;。核心功能模块 Al_Compny系统是一个面向"一…

OpenWrt | 在 PPP 拨号模式下启用 IPv6 功能

文章目录一、WAN 口配置二、LAN 口配置三、IPv6 测试本文将详细介绍 将光猫的网络模式改成桥接之后使用路由器拨号的上网方式的情况下&#xff0c;在 OpenWrt 上使用 PPP 拨号模式上网时&#xff0c;启用 IPv6 功能的方法。 一、WAN 口配置 首先&#xff0c;我们需要在 网络 …

Java如何实现一个安全的登录功能?

安全登录系统完整教程 &#x1f4cb; 目录 项目概述技术栈安全特性项目结构核心组件详解安全实现原理部署和运行安全最佳实践常见问题解答进阶扩展 &#x1f3af; 项目概述 这是一个基于Spring Boot和Spring Security的完整安全登录系统&#xff0c;专为初学者设计&#xff…

星辰诞愿——生日快乐

前言 今天这篇博客并非技术文章&#xff0c;而是庆祝我可爱的妹妹18岁生日以及介绍我半年以来的学习经历 祝生网站&#xff1a;星辰诞愿(用户列表里第一位就是我妹妹&#xff0c;希望大家能献上自己的祝福&#xff0c;能分享转发更好&#xff0c;我在此感谢大家。如果使用手机&…

基于STM32单片机的智能粮仓温湿度检测蓝牙手机APP设计

基于STM32单片机的智能粮仓温湿度检测蓝牙手机APP设计 1 系统功能介绍 本系统是一款基于STM32单片机的智能粮仓环境监测与控制装置&#xff0c;核心目标是通过传感器实时采集粮仓内的温度和湿度信息&#xff0c;并结合蓝牙通信模块将数据传输至手机端&#xff0c;实现对粮仓环境…

简单视频转换器 avi转mp4

直接上代码package com.example.videoconverter;import ws.schild.jave.Encoder; import ws.schild.jave.EncoderException; import ws.schild.jave.MultimediaObject; import ws.schild.jave.encode.AudioAttributes; import ws.schild.jave.encode.EncodingAttributes; impor…

Kafka 与 RocketMQ 核心概念与架构对比

Kafka 与 RocketMQ 核心概念与架构对比DeepSeek生成&#xff0c;便于记忆大概逻辑核心概念对比图 #mermaid-svg-dEbo1XpAjfzOjvUW {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-dEbo1XpAjfzOjvUW .error-icon{fill…

30分钟深度压测cuBLAS:从FP64到INT8全精度性能剖析

在深度学习和高性能计算领域&#xff0c;GPU的矩阵运算性能是衡量系统算力的核心指标之一。NVIDIA的cuBLAS库作为CUDA平台上最基础的线性代数计算库&#xff0c;其性能表现直接影响着上层应用的运行效率。本文将详细介绍如何使用cublasmatmulbench工具对多GPU进行全面的性能基准…

超越模仿:探寻智能的本源

引言&#xff1a;超越模仿&#xff0c;探寻智能的本源近年来&#xff0c;以大语言模型&#xff08;LLM&#xff09;为代表的自然语言处理&#xff08;NLP&#xff09;技术&#xff0c;在模仿人类语言生成方面取得了令人瞩目的成就。从流畅的对话到精炼的文本摘要&#xff0c;机…

ROS/ROS2课程笔记00-大纲-25-26-1

大纲 AI版 以下是基于第四代高校课程核心理念设计的《ROS2机器人程序设计&#xff08;ROS2 Jazzy版&#xff09;》课程大纲&#xff0c;突出智能互联、跨学科融合、终身学习等特征&#xff0c;并融入技术赋能、生态重塑、素养导向等要求&#xff1a; 课程名称&#xff1a;ROS…

Linux内核进程管理子系统有什么第四十六回 —— 进程主结构详解(42)

接前一篇文章&#xff1a;Linux内核进程管理子系统有什么第四十五回 —— 进程主结构详解&#xff08;41&#xff09; 本文内容参考&#xff1a; Linux内核进程管理专题报告_linux rseq-CSDN博客 《趣谈Linux操作系统 核心原理篇&#xff1a;第三部分 进程管理》—— 刘超 《…

Linux网络连接不上?NetworkManager提示“device not managed“!

#操作系统 #Linux #NetworkManager适用环境kylin v10Centos 8Redhat 8一、故障现象在CentOS/RHEL(同样适用于kylin v10&#xff09;系统中&#xff0c;管理员执行 nmcli connection up ens160 命令尝试激活名为 ens160 的网络连接时&#xff0c;遇到以下错误&#xff1a;[roo…

【系统分析师】第2章-基础知识:数学与工程基础(核心总结)

更多内容请见: 备考系统分析师-专栏介绍和目录 文章目录 一、数学统计基础 1.1 概率论基础 1.2 数理统计基础 1.3 常用统计分析方法 二、图论应用 2.1 基本概念 2.2 核心算法与应用 三、预测与决策 3.1 预测方法 3.2 决策方法 四、数学建模 4.1 建模过程 4.2 常用模型类型 五、…

StrUtil.isBlank()

这段代码是一个条件判断&#xff0c;用于检查变量 shopJson 是否为空或空白&#xff0c;如果是&#xff0c;就直接返回 null。我们来逐句讲解&#xff1a;原始代码&#xff1a; if(StrUtil.isBlank(shopJson)) {// 3.存在&#xff0c;直接返回return null; }逐句解释&#xff1…

mysql 回表查询(二次查询,如何检查,如何规避)

h5打开以查看 “回表查询”通常发生在使用二级索引&#xff08;Secondary Index&#xff09;的查询中。当查询所需的数据列并不全部包含在二级索引中时&#xff0c;即使使用了索引&#xff0c;MySQL 也需要根据索引记录中的主键值&#xff0c;回到聚簇索引&#xff08;Cluster…

深度学习(二):神经元与神经网络

在人工智能的浪潮中&#xff0c;神经网络&#xff08;Neural Networks&#xff09;无疑是驱动核心技术的引擎&#xff0c;它赋予了计算机前所未有的学习和识别能力。而这一切的起点&#xff0c;是受到生物大脑中基本单元——神经元&#xff08;Neurons&#xff09;的深刻启发。…

JavaScript 行为型设计模式详解

1. 观察者模式1.1. 使用场景观察者模式用于对象间的一对多依赖关系&#xff0c;当一个对象的状态发生变化时&#xff0c;所有依赖于它的对象都能收到通知并自动更新。常用于事件处理、通知系统。在前端中&#xff0c;观察者模式用于实现事件监听、数据绑定等功能。1.2. 代码实现…