4.2 如何训练⼀个 LLM

⼀般⽽⾔，训练⼀个完整的 LLM 需要经过图1中的三个阶段——Pretrain、SFT 和 RLHF。

4.2.1 Pretrain

预训练任务与架构

任务类型：采用因果语言模型（CLM），通过预测下一个 token 进行训练，与传统预训练模型（如 BERT）的 MLM 任务不同，更侧重生成能力。
架构选择：主流 LLM（如 GPT-3、LLaMA）采用 Decoder-Only 架构，相比传统模型（如 BERT 的 Encoder 架构）更适合长文本生成。

参数量与数据规模对比

核心差异：LLM 参数量比传统模型大 1-3 个数量级，训练数据需满足 Scaling Law（token 数约为参数的 1.7-20 倍），如 GPT-3 需 300 亿 - 3.5 万亿 token。

分布式训练框架与技术

数据并行：多 GPU 同时处理不同批次数据，同步梯度更新，适用于模型参数可容纳单卡的场景。

模型并行：将模型分层或分模块部署到不同 GPU，解决百亿级参数的内存瓶颈（如 GPT-3 需拆分为 96 层 Decoder）。

主流的分布式训练框架包括 Deepspeed、Megatron-LM、ColossalAI 等，其中，Deepspeed 使⽤⾯最⼴。

DeepSpeed：采用 ZeRO 优化显存，分三级策略（ZeRO-1 至 ZeRO-3）逐步分⽚模型状态参数，减少单卡显存占用（如 ZeRO-3 可使单卡仅存储 1/n 模型参数）。

ZeRO 将模型训练阶段每张卡被占⽤的显存分为两类：

模型状态（Model States），包括模型参数、模型梯度和优化器 Adam 的状态参数。假设模型参数量为1M，⼀般来说，在混合精度训练的情况下，该部分需要 16M 的空间进⾏存储，其中 Adam 状态参数会占据12M 的存储空间。
剩余状态（Residual States），除了模型状态之外的显存占⽤，包括激活值、各种缓存和显存碎⽚。

针对上述显存占⽤，ZeRO 提出了三种不断递进的优化策略：

1. ZeRO-1，对模型状态中的 Adam 状态参数进⾏分⽚，即每张卡只存储的 Adam 状态参数，其他参数仍然保持每张卡⼀份。
2. ZeRO-2，继续对模型梯度进⾏分⽚，每张卡只存储的模型梯度和 Adam 状态参数，仅模型参数保持每张卡⼀份。
3. ZeRO-3，将模型参数也进⾏分⽚，每张卡只存储的模型梯度、模型参数和 Adam 状态参数。

其他框架：Megatron-LM（张量并行）、ColossalAI（3D 并行），结合 CPU-offload 技术进一步释放 GPU 内存。

预训练数据挑战与处理流程

主流开源数据：CommonCrawl（67%）、C4（15%）、Github（4.5%）等，LLM 常混合私有高质量数据（如学术论文、书籍）。

中文数据缺口：高质量中文开源数据集（如 SkyPile、yayi2）规模远小于英文（如 RedPajama-1T），且闭源模型（如 ChatGLM）未公开预训练数据。

预训练数据处理⼀般包括以下流程：

文档准备：爬取网页后过滤 URL、提取纯文本、筛选语种（如保留中文 / 英文）。
语料过滤：通过模型分类器（如 BERT 筛选高质量文本）或启发式规则（如去除乱码、广告）剔除低质内容。
语料去重：基于 hash 算法或子串匹配删除重复文档，避免模型过拟合（如 SlimPajama-627B 通过去重实现比 RedPajama-1T 更好效果）。

4.2.2 SFT

SFT——Supervisor Finetune，有监督微调。赋予预训练 LLM “通用指令遵循能力”，解决其 “死板背书” 问题（仅能预测下一个 token，无法理解指令含义）。

与传统微调的区别：传统 PLM 需针对单一任务（如文本分类）单独微调，而 LLM 的 SFT 通过 “指令微调” 实现跨任务泛化，例如用同一模型处理翻译、问答、生成等多类指令。

指令数据的构建需覆盖多任务类型（如文本生成、问答、聊天），开源 LLM 的 SFT 数据量通常在数 B token 级别，单任务需 500~1000 条样本。

配比例子：OpenAI 的 InstructGPT 数据中，文本生成占 45.6%、开放域问答占 12.4%、聊天占 8.4%，需平衡不同任务类型的比例以提升泛化性。

数据获取难点：

人工标注成本高：高质量指令 - 响应对依赖专业标注（如 ChatGPT 的成功依赖人工数据），开源数据稀缺。
替代方案：通过 LLM 生成指令数据（如 Alpaca 基于 ChatGPT 生成样本），降低标注成本但需注意数据质量。

指令数据格式通常包含三个键（以翻译任务为例）：

{"instruction": "将下列文本翻译成英文","input": "今天天气真好","output": "Today is a nice day！"
}

格式优化：

LLaMA 格式：使用特定分隔符（如### Instruction:\n）包裹指令，确保模型识别输入模式。
多轮对话构造：
- 不合理方式：仅拟合最后一轮回复（丢失中间信息）或拆分为单轮样本（重复计算）。
- 合理方式：将多轮对话拼接为连续文本（如prompt1+completion1+prompt2+completion2+...），模型按顺序预测每轮输出，例如：

输入：用户问“你好”→模型回“您好”→用户问“Datawhale是什么”  
输出：模型需生成“您好”+“Datawhale是开源组织”（按CLM预测下一个token）

多轮对话不依赖预训练，完全通过 SFT 阶段的对话格式数据训练获得。

技术要点：利用 LLM 的自回归特性（单向注意力），将历史对话作为输入上下文，模型通过预测后续 token 实现对话连贯性。例如：

无多轮能力模型：每次对话独立，不记忆历史（如重复询问时仍回答 “不知道”）。
有多轮能力模型：结合历史对话生成回复（如记住用户曾介绍过 Datawhale）。

LLM 的知识储备（如语言理解、世界知识）源于预训练语料，SFT 仅调整其 “应用知识的方式”。

SFT 的激发作用：通过指令微调，将预训练获得的通用能力转化为具体任务执行能力，例如：

预训练阶段：学会 “翻译语法规则”；
SFT 阶段：通过指令数据学会 “按用户要求执行翻译任务”。

4.2.3 RLHF

RLHF，全称是 Reinforcement Learning from Human Feedback，即⼈类反馈强化学习，是利⽤强化学习来训练LLM 的关键步骤。作为 LLM 训练的对齐阶段，解决 SFT 后模型仍可能存在的价值观偏差，使输出符合人类安全、有用、无害的标准（如拒绝有害指令）。

与 SFT 的区别：

SFT：让模型学会 “遵循指令”（如翻译、问答）；
RLHF：让模型学会 “按人类偏好输出”（如拒绝回答违法问题，优先正确信息）。

RLHF 的两阶段实现流程

（1）奖励模型（RM）训练

模型功能：拟合人类偏好，为 LLM 的回复打分，本质是文本分类模型（LLM 架构 + 分类层）。
训练数据：
- 格式：{prompt: 问题, chosen: 优质回复, rejected: 劣质回复}，如：

{"prompt": "偷东西选什么时间？","chosen": "这是违法行为，不能建议","rejected": "分析夜间盗窃优势..."
}

核心逻辑：通过对比chosen和rejected的优劣，训练 RM 最大化两者的奖励分数差异。

RM 规模通常小于 LLM（如 OpenAI 用 6B RM 优化 175B LLM）；

避免直接使用标量奖励（易受标注者主观影响），采用排序对比训练。

（2）PPO 算法优化

算法框架：
- 四模型结构：
  - Actor Model（待更新）、Ref Model（固定参数，防止能力退化）；
  - Reward Model（打分）、Critic Model（计算累积奖励）。
- 训练流程：
  1. Actor 与 Ref 对同一 prompt 生成回复；
  2. 计算两者 KL 散度（约束更新幅度）；
  3. RM 对 Actor 回复打分，Critic 计算累积奖励；
  4. 结合 KL 散度和奖励值构建损失函数，更新 Actor 和 Critic 参数。
奖励函数：

奖励 = γ₁×KL散度 + γ₂×Reward Model打分 + γ₃×Critic累积奖励

（γ 为权重参数，平衡模型稳定性与偏好对齐）。

RLHF 的挑战与替代方案

资源消耗：
- 显存占用高（如 7B 模型需 4 张 80G A100），训练成本远超 SFT。
技术替代：
- DPO（直接偏好优化）：
  - 核心思路：将 RLHF 转化为监督学习，无需训练 RM 和复杂强化学习流程；
  - 优势：仅需 2 个 LLM，训练门槛低，效果可平替 PPO（通过数学推导证明偏好学习可行性）。