LLM(Large Language Model)大规模语言模型浅析

参考: https://zhuanlan.zhihu.com/p/7046080918
LLM(Large Language Model)大规模语言模型,是指具有大规模参数和复杂计算结构的机器学习模型。大模型里常说的多少B, B 是 Billion 的缩写，表示十亿,如DeepSeek满血版 671B(6710亿参数);
大模型本质上是一个使用海量数据训练而成的深度神经网络模型，其巨大的数据和参数规模，实现了智能的涌现，展现出类似人类的智能。

语言大模型大模型主要分类:
NLP: 自然语言处理,常用于处理文本数据和理解自然语言;
常见模型: GPT系列（OpenAI）、Bard（Google）、文心一言（百度）

视觉大模型（CV）:常用于图像处理和分析,如图像分类、目标检测、图像分割、姿态估计、人脸识别等;
常见模型: VIT系列（Google）、文心UFO、华为盘古CV、INTERN（商汤）。

多模态大模型: 这类模型结合了NLP和CV的能力,是指能够处理多种不同类型数据的大模型，例如文本、图像、音频等多模态数据。
常见模型: DingoDB多模向量数据库（九章云极DataCanvas）、DALL-E(OpenAI)、悟空画画（华为）、midjourney。

大模型的训练流程:

数据准备

这部分包括:  
①数据收集: 公开数据(新闻,媒体,论文,网页)和内部数据,
数据通常要求合规(版权,法律)② 数据清洗和过滤: 去重,过滤(低质量的,违法暴力的,敏感的),格式化(统一格式)③预处理: 将清洗后的文本转化为模型可识别的形式(分词,截断,填充,构建批次)

模型架构设计
这一阶段确定架构和参数;
①架构选择
选择适合的模型架构来搭建LLM模型, Transformer 架构占据主导地位,

其他模型有:①RNN 及其变体: 循环神经网络（RNN）、长短期记忆网络（LSTM）、门控循环单元（GRU）②混合架构：Transformer + RNN  结合 Transformer 的注意力机制和 RNN 的序列建模能力。③稀疏注意力机制: 优化 Transformer 的注意力计算，降低时间和空间复杂度。④基于图的架构: 将文本表示为图结构，节点表示 token 或短语，边表示语义关系。⑤基于内存的架构: 引入外部记忆模块存储知识，减少对模型参数的依赖。⑥量子计算启发的架构: 借鉴量子计算原理设计新型神经网络。⑦神经概率逻辑模型: 将深度学习与符号逻辑推理相结合。⑧其他(T5,Switch Transformers)

Transformer 有三个变体: Encoder-Only , Decoder-only ,Encoder-Decoder

Encoder-Only架构
仅由编码器构成也被称为单向架构。
这种架构的优点是能够更好地理解输入文本的语义和上下文信息，常用于如文本分类、情感分析等。缺点是它无法直接生成文本输出，因此在需要生成文本的任务中不太适用。
通常用于: 文本分类、命名实体识别、情感分析等
模型代表: BERT、RoBERT 和 ALBERT 等。

Decoder-only 架构
仅包含解码器,也被称为生成式架构。
Decoder-Only 架构还有一个重要特点是可以进行无监督预训练。在预训练阶段，模型通过大量的无标注数据学习语言的统计模式和语义信息。
通常用于: 文本生成类任务，如对话系统、故事创作、摘要生成等
模型代表: GPT系列、LLaMA、OPT、BLOOM等

Encoder-Decoder 架构
包含编码器和解码器部分
这种架构的优点是能够更好地处理输入序列和输出序列之间的关系，从而提高机器翻译和对话生成等任务的准确性。缺点是模型复杂度较高，训练时间和计算资源消耗较大。

通常用于: 转换类任务,如机器翻译、语音识别、问答系统等。
模型代表: 例如Google的T5模型、华为的盘古NLP大模型等

②参数设计
模型的性能与参数规模强相关

模型规模：
总参数量（如 7B、13B、70B、175B 等，参数量越大，
理论上可学习的知识越丰富，但训练成本越高）；结构参数：
transformer 层数（L）：表示 Transformer 模型的堆叠层数（通常几十或上百层如 GPT-3 有 96 层）；
层数决定了模型对输入信息的提炼深度：隐藏层维度（d_model）：每层的特征维度（如 GPT-3 为 12288）； 
维度越高意味着每个token的信息承载越多,注意力头数（num_heads）：影响模型对文本中 “不同关系” 的捕捉能力（如 GPT-3 有 96 个头）；上下文窗口：模型可处理的最大文本长度（如 GPT-3 为 2048 token，GPT-4 为 128k tokens），
窗口越大，模型对长文本的理解能力越强。
ps: 
Token（令牌） 是最基本的文本处理单元，相当于模型“理解”文本的“最小单位”。
在数据预处理阶段,将文本使用分词器 Tokenizer进行分词处理,即得到token;

预训练
预训练本质上是一种大规模的自监督学习过程。与传统神经网络需要人工标注数据不同，预训练巧妙地利用文本数据本身的内在结构作为监督信号。具体而言，它是通过预测文本中的下一个词来学习语言规律。也就是说，预训练把复杂的语言学习问题转化成了一个统计问题：在已知前面所有词的情况下，去推断下一个词最有可能是什么。此阶段耗时最长、资源消耗最大（需数千 GPU/TPU 运行数周甚至数月）。
它的意义在于
①绕过了数据标注的瓶颈。预训练让模型从文本的自然结构中自主学习，无需外部监督。
②预训练使模型不仅获得了通用的语言表示能力,还获得了常识知识、逻辑推理能力。(还有"涌现能力"现象——当模型规模达到临界点时，会自然展现出训练目标之外的智能行为，从简单的文本预测中涌现出数学推理、代码生成等高级能力。)

①训练目标

1. 学习通用语言表示：掌握词汇、语法、句法、语义等基础语言规则。
2. 构建世界知识：从文本中吸收事实、概念、逻辑关系等知识。
3. 建立上下文理解能力：预测下一个词时需要依赖前文语境。

②核心预训练方法
主要分为两类，区别在于训练目标和模型架构：

1. 自回归语言建模（Autoregressive LM）
原理：根据上文预测下一个词（从左到右）。
代表模型：GPT 系列、LLaMA、Bloom。
特点：
天然适合生成任务。
训练时只能看到上文信息（单向注意力）。2. 掩码语言建模（Masked LM）
原理：随机遮盖输入文本中的部分词，让模型预测被遮盖的词。
代表模型：BERT、RoBERTa。
特点：
能同时利用左右上下文（双向注意力）。
更适合理解类任务（如文本分类、NER）

③训练策略

分布式训练：因模型参数量巨大（如 175B 参数需数十 TB 显存），需通过分布式技术拆分任务：
数据并行：将数据拆分到多个设备，各自计算梯度后汇总；
模型并行：将模型层拆分到不同设备（如底层在 GPU1，上层在 GPU2）；
张量并行：将单个层的参数拆分到多个设备（如注意力头分布到不同 GPU）；优化器与调度：常用 AdamW 优化器（带权重衰减的 Adam），
学习率采用 “线性预热 + 余弦衰减” 策略（避免初始学习率过大破坏模型）；混合精度训练：用 FP16（半精度）或 BF16（脑浮点）计算，
减少显存占用并加速训练（同时保留关键参数用 FP32 存储，避免精度损失）。批次大小（Batch Size）：从数百万到数亿 token（需分布式训练）

④训练监控
需实时监控关键指标，确保训练稳定：

损失（Loss）：训练集和验证集的损失应持续下降，若验证集损失上升，可能出现过拟合；困惑度（Perplexity, PPL）：衡量模型预测的 “不确定性”，PPL = exp (Loss)，
值越低表示模型对文本的预测越准确（如 GPT-3 在预训练后 PPL 约为 20）；资源指标：GPU 利用率、显存占用、网络通信效率（分布式训练中关键）。

训练过程中会定期保存checkpoint（模型参数 + 优化器状态），便于中断后恢复或后续微调。
上面是大概流程,但是具体怎么操作么找到,找到也没啥用,动不动就几百上千万美元,玩不起,也不会自己去训练一个模型;

微调(适配具体场景)
预训练与微调（Fine-tuning）的关系

预训练：在大规模数据上学习通用语言知识。(使用海量无标注文本（TB级）)
微调：在预训练基础上，使用特定任务的标注数据进一步优化模型。(使用少量任务标注数据（KB-MB级）)
预训练是“培养通才”，微调是“打造专才”

①微调（Fine-tuning）核心目标

1.任务适配：使通用模型掌握特定任务能力（如翻译、摘要、客服）。
2.领域专业化：注入专业知识（如医疗、法律、金融）。
3.对齐人类偏好：优化输出安全性、无害性和有用性（通过RLHF）。
4.弥补预训练不足：纠正知识盲区或更新信息（如2023年后事件）。

②微调方法分类
按更新参数范围分为全量微调FFT(Full Fine Tuning),高效参数微调PEFT(Parameter-Efficient Fine Tuning)
这种分类方法的核心问题是：微调时需要更新模型的多少参数？
全参数微调（Full Fine-tuning）

原理
更新预训练模型的所有参数。适用场景
数据量充足（>10万样本）。
任务与预训练数据分布差异大（如专业领域）。缺点
显存占用高（需存储优化器状态和梯度）。
易灾难性遗忘（Catastrophic Forgetting

参数高效微调（Parameter-Efficient Fine-tuning, PEFT）
核心思想：冻结大部分预训练参数，只训练少量新增参数。
优势：显存占用低、训练速度快、避免遗忘。

主流技术: 
LoRA	向Transformer层注入低秩矩阵（ΔW = A·B），仅训练A、B。	显存节省70%，支持多任务切换（替换矩阵）Adapter	在FFN层后插入小型全连接层，仅训练该模块。	增加推理延迟（约4%），适合串行部署Prompt Tuning	学习软提示（Soft Prompt）向量，拼接输入端。	几乎不增加计算量，但对超参数敏感QLoRA	LoRA + 4-bit量化（用NF4存储预训练权重），GPU显存需求降低至1/3。	可在24GB消费级显卡微调65B模型（如Llama 2）

按“微调目标与方法”划分
这种分类方法的核心问题是：微调的目标是什么(教模型做什么)？用什么数据和方法实现？(即训练范式)
监督微调（Supervised Fine-Tuning, SFT）

用人工标注的“输入-输出”（监督数据）训练模型，
通过最小化预测输出与目标输出的损失（如交叉熵），
让模型学习“在特定输入下生成正确输出”。指令微调（Instruction Tuning）:使用多样化的指令 - 响应数据训练模型，使其理解并遵循人类指令,它属于SFT的一种,但数据从“输入-输出”升级为“自然语言指令-响应”，目标是让模型理解并执行任意自然语言指令,指令微调侧重 “指令”，SFT 侧重 “响应”

基于人类反馈的强化学习（RLHF）

通过人类对模型输出的偏好反馈（如排序、评分）训练“奖励模型”，再用强化学习（如PPO算法）优化模型，让输出更符合人类价值观（如“更安全”“更有用”“更诚实”）。用于对齐阶段,属于微调的一种, 目标是让模型安全、有用、符合人类偏好。
方法是
奖励模型（Reward Model, RM）(通常基于 SFT 模型结构)输入 “问题 + 输出”，输出一个分数（分数越高越符合人类偏好）用 RM 的分数作为 “奖励”，通过强化学习优化模型，让其生成更符合人类偏好的内容。

多任务微调:
数据: 混合任务标注数据;
目标: 提升跨任务泛化能力

领域微调:
数据: 特定领域文本（如医疗、法律）无严格格式(相当于用隐私数据在训练一下)
目标: 适应专业领域
通常在预训练后、任务微调前（为领域任务打基础）

对齐
目标是让AI系统的行为与人类需求、偏好和价值观保持一致
翻译成人话就是:“减少有害信息输出,使输出更加友好(会说话)”; 有害信息包括不限于,虚假,无效,违法,犯罪,反动,色情,暴力…等信息,
除了RLHF（强化学习从人类反馈）还有其他对齐方法

RLOO（RL from AI Feedback）：用 AI 替代人类标注偏好数据（降低成本）；
DPO（Direct Preference Optimization）：直接用人类偏好数据微调模型，无需训练奖励模型（简化流程）；
安全微调（Safety Fine-tuning）：用 “有害指令 + 安全响应” 数据微调，让模型拒绝生成有害内容（如 “如何制作炸弹”→“抱歉，我不能提供此类信息”）。

评估验证 “模型性能”
评估需覆盖能力、安全、效率等多维度，贯穿训练全流程（预训练、SFT、对齐后均需评估）。

基础能力：语言理解（如分词、语义相似性）、生成质量（流畅度、连贯性）、推理能力（逻辑推理、数学计算）、知识覆盖（事实准确性）；
任务性能：在标准基准测试上的表现（如 MMLU 测试知识问答，GLUE 测试语言理解，HumanEval 测试代码生成）；
安全性：通过 “红队测试”（用有害指令诱导模型）评估是否生成有害内容；
对齐度：人工评估模型输出是否符合人类偏好（如简洁性、相关性）；
效率：推理速度（tokens / 秒）、显存占用、训练 / 推理成本。

部署
部署的目标是让模型在实际场景中高效可用（如 API 服务、App 集成）。
常见操作有
模型压缩

量化：将参数从 FP32 转为 INT8/INT4（如 GPTQ、AWQ 技术），显存占用可降低 75% 以上，几乎不损失性能；
剪枝：移除冗余参数（如不重要的注意力头或神经元）；
知识蒸馏：用大模型（教师）教小模型（学生），保留核心能力。

推理优化

推理引擎：用优化的推理框架（如 TensorRT-LLM、vLLM）加速生成速度（支持批量推理、连续批处理）；
上下文缓存：缓存输入文本的计算结果（如注意力矩阵），避免重复计算。

部署与监控

部署形式：以 API 服务（如 OpenAI 的 ChatCompletion）、本地部署（如企业私有云）或边缘设备（如手机）形式落地；
持续监控：跟踪模型输出的安全性（如用过滤器拦截有害内容）、性能变化（如是否出现 “模型漂移”），并基于用户反馈迭代优化。

LLM(Large Language Model)大规模语言模型浅析

相关文章

【后端】配置SqlSugar ORM框架并添加仓储

全国高等院校计算机基础教育研究会2025学术年会在西宁成功举办 ——高原论道启新程，数智融合育英才

AppTrace：重新定义免填邀请码，解锁用户裂变新高度

神经网络常见激活函数 13-Softplus函数

深度理解 KVM：Linux 内核系统学习的重要角度

闭包的定义和应用场景

北京-4年功能测试2年空窗-报培训班学测开-第五十四天

算法训练营day24 回溯算法③ 93.复原IP地址、78.子集、 90.子集II

jeccg-boot框架实现xls模板导出功能

LangChain4j入门：Java开发者的AI应用开发指南

相机光学（五十）——Depth AF

Unity 堆栈分析实战指南 C#

AE MDX L6 L12 L18 电源手侧操作使用说明

Gemini Function Calling 和 Qwen3 Embedding和ReRanker模型

VMware Workstation Pro 17.5.0 安装教程 - 详细步骤图解（附下载+激活）

端到端神经网络视频编解码器介绍

Kubernetes (k8s)环境重启Pod方式总结

OOA、OOD 与 OOP：面向对象范式的核心支柱详解

GBase 8a 与 Spring Boot + MyBatis 整合实战：从环境搭建到CRUD操作

功能安全之BIST的基本原理