LLM(Large Language Model)大规模语言模型浅析

参考: https://zhuanlan.zhihu.com/p/7046080918
LLM(Large Language Model)大规模语言模型,是指具有大规模参数和复杂计算结构的机器学习模型。大模型里常说的多少B, B 是 Billion 的缩写,表示 十亿,如DeepSeek满血版 671B(6710亿参数);
大模型本质上是一个使用海量数据训练而成的深度神经网络模型,其巨大的数据和参数规模,实现了智能的涌现,展现出类似人类的智能。

语言大模型大模型主要分类:
NLP: 自然语言处理,常用于处理文本数据和理解自然语言;
常见模型: GPT系列(OpenAI)、Bard(Google)、文心一言(百度)

视觉大模型(CV):常用于图像处理和分析,如图像分类、目标检测、图像分割、姿态估计、人脸识别等;
常见模型: VIT系列(Google)、文心UFO、华为盘古CV、INTERN(商汤)。

多模态大模型: 这类模型结合了NLP和CV的能力,是指能够处理多种不同类型数据的大模型,例如文本、图像、音频等多模态数据。
常见模型: DingoDB多模向量数据库(九章云极DataCanvas)、DALL-E(OpenAI)、悟空画画(华为)、midjourney。

大模型的训练流程:

  1. 数据准备
这部分包括:  
①数据收集: 公开数据(新闻,媒体,论文,网页)和内部数据,
数据通常要求合规(版权,法律)② 数据清洗和过滤: 去重,过滤(低质量的,违法暴力的,敏感的),格式化(统一格式)③预处理: 将清洗后的文本转化为模型可识别的形式(分词,截断,填充,构建批次)
  1. 模型架构设计
    这一阶段确定架构和参数;
    ①架构选择
    选择适合的模型架构来搭建LLM模型, Transformer 架构占据主导地位,
其他模型有:①RNN 及其变体: 循环神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)②混合架构:Transformer + RNN  结合 Transformer 的注意力机制和 RNN 的序列建模能力。③稀疏注意力机制: 优化 Transformer 的注意力计算,降低时间和空间复杂度。④基于图的架构: 将文本表示为图结构,节点表示 token 或短语,边表示语义关系。⑤基于内存的架构: 引入外部记忆模块存储知识,减少对模型参数的依赖。⑥量子计算启发的架构: 借鉴量子计算原理设计新型神经网络。⑦神经概率逻辑模型: 将深度学习与符号逻辑推理相结合。⑧其他(T5,Switch Transformers)

Transformer 有三个变体: Encoder-Only , Decoder-only ,Encoder-Decoder

Encoder-Only架构
仅由编码器构成 也被称为单向架构。
这种架构的优点是能够更好地理解输入文本的语义和上下文信息,常用于如文本分类、情感分析等。 缺点是它无法直接生成文本输出,因此在需要生成文本的任务中不太适用。
通常用于: 文本分类、命名实体识别、情感分析等
模型代表: BERT、RoBERT 和 ALBERT 等。

Decoder-only 架构
仅包含解码器,也被称为生成式架构。
Decoder-Only 架构还有一个重要特点是可以进行无监督预训练。在预训练阶段,模型通过大量的无标注数据学习语言的统计模式和语义信息。
通常用于: 文本生成类任务,如对话系统、故事创作、摘要生成等
模型代表: GPT系列、LLaMA、OPT、BLOOM等

Encoder-Decoder 架构
包含编码器和解码器部分
这种架构的优点是能够更好地处理输入序列和输出序列之间的关系,从而提高机器翻译和对话生成等任务的准确性。缺点是模型复杂度较高,训练时间和计算资源消耗较大。

通常用于: 转换类任务,如机器翻译、语音识别、问答系统等。
模型代表: 例如Google的T5模型、华为的盘古NLP大模型等

②参数设计
模型的性能与参数规模强相关

模型规模:
总参数量(如 7B、13B、70B、175B 等,参数量越大,
理论上可学习的知识越丰富,但训练成本越高);结构参数:
transformer 层数(L):表示 Transformer 模型的堆叠层数(通常几十或上百层如 GPT-3 有 96 层);
层数决定了模型对输入信息的提炼深度:隐藏层维度(d_model):每层的特征维度(如 GPT-3 为 12288); 
维度越高意味着每个token的信息承载越多,注意力头数(num_heads):影响模型对文本中 “不同关系” 的捕捉能力(如 GPT-3 有 96 个头);上下文窗口:模型可处理的最大文本长度(如 GPT-3 为 2048 token,GPT-4 为 128k tokens),
窗口越大,模型对长文本的理解能力越强。
ps: 
Token(令牌) 是最基本的文本处理单元,相当于模型“理解”文本的“最小单位”。
在数据预处理阶段,将文本使用分词器 Tokenizer进行分词处理,即得到token;
  1. 预训练
    预训练本质上是一种大规模的自监督学习过程。与传统神经网络需要人工标注数据不同,预训练巧妙地利用文本数据本身的内在结构作为监督信号。具体而言,它是通过预测文本中的下一个词来学习语言规律。也就是说,预训练把复杂的语言学习问题转化成了一个统计问题:在已知前面所有词的情况下,去推断下一个词最有可能是什么。此阶段耗时最长、资源消耗最大(需数千 GPU/TPU 运行数周甚至数月)。
    它的意义在于
    ①绕过了数据标注的瓶颈。 预训练让模型从文本的自然结构中自主学习,无需外部监督。
    ②预训练使模型不仅获得了通用的语言表示能力,还获得了常识知识、逻辑推理能力。(还有"涌现能力"现象——当模型规模达到临界点时,会自然展现出训练目标之外的智能行为,从简单的文本预测中涌现出数学推理、代码生成等高级能力。)

①训练目标

1. 学习通用语言表示:掌握词汇、语法、句法、语义等基础语言规则。
2. 构建世界知识:从文本中吸收事实、概念、逻辑关系等知识。
3. 建立上下文理解能力:预测下一个词时需要依赖前文语境。

②核心预训练方法
主要分为两类,区别在于训练目标和模型架构:

1. 自回归语言建模(Autoregressive LM)
原理:根据上文预测下一个词(从左到右)。
代表模型:GPT 系列、LLaMA、Bloom。
特点:
天然适合生成任务。
训练时只能看到上文信息(单向注意力)。2. 掩码语言建模(Masked LM)
原理:随机遮盖输入文本中的部分词,让模型预测被遮盖的词。
代表模型:BERT、RoBERTa。
特点:
能同时利用左右上下文(双向注意力)。
更适合理解类任务(如文本分类、NER)

③训练策略

分布式训练:因模型参数量巨大(如 175B 参数需数十 TB 显存),需通过分布式技术拆分任务:
数据并行:将数据拆分到多个设备,各自计算梯度后汇总;
模型并行:将模型层拆分到不同设备(如底层在 GPU1,上层在 GPU2);
张量并行:将单个层的参数拆分到多个设备(如注意力头分布到不同 GPU);优化器与调度:常用 AdamW 优化器(带权重衰减的 Adam),
学习率采用 “线性预热 + 余弦衰减” 策略(避免初始学习率过大破坏模型);混合精度训练:用 FP16(半精度)或 BF16(脑浮点)计算,
减少显存占用并加速训练(同时保留关键参数用 FP32 存储,避免精度损失)。批次大小(Batch Size):从数百万到数亿 token(需分布式训练)

④训练监控
需实时监控关键指标,确保训练稳定:

损失(Loss):训练集和验证集的损失应持续下降,若验证集损失上升,可能出现过拟合;困惑度(Perplexity, PPL):衡量模型预测的 “不确定性”,PPL = exp (Loss),
值越低表示模型对文本的预测越准确(如 GPT-3 在预训练后 PPL 约为 20);资源指标:GPU 利用率、显存占用、网络通信效率(分布式训练中关键)。

训练过程中会定期保存checkpoint(模型参数 + 优化器状态),便于中断后恢复或后续微调。
上面是大概流程,但是具体怎么操作么找到,找到也没啥用,动不动就几百上千万美元,玩不起,也不会自己去训练一个模型;

  1. 微调(适配具体场景)
    预训练与微调(Fine-tuning)的关系
预训练:在大规模数据上学习通用语言知识。(使用海量无标注文本(TB级))
微调:在预训练基础上,使用特定任务的标注数据进一步优化模型。(使用少量任务标注数据(KB-MB级))
预训练是“培养通才”,微调是“打造专才”

①微调(Fine-tuning)核心目标

1.任务适配:使通用模型掌握特定任务能力(如翻译、摘要、客服)。
2.领域专业化:注入专业知识(如医疗、法律、金融)。
3.对齐人类偏好:优化输出安全性、无害性和有用性(通过RLHF)。
4.弥补预训练不足:纠正知识盲区或更新信息(如2023年后事件)。

②微调方法分类
按更新参数范围分为全量微调FFT(Full Fine Tuning),高效参数微调PEFT(Parameter-Efficient Fine Tuning)
这种分类方法的核心问题是:微调时需要更新模型的多少参数?
全参数微调(Full Fine-tuning)

原理
更新预训练模型的所有参数。适用场景
数据量充足(>10万样本)。
任务与预训练数据分布差异大(如专业领域)。缺点
显存占用高(需存储优化器状态和梯度)。
易灾难性遗忘(Catastrophic Forgetting

参数高效微调(Parameter-Efficient Fine-tuning, PEFT)
核心思想:冻结大部分预训练参数,只训练少量新增参数。
优势:显存占用低、训练速度快、避免遗忘。

主流技术: 
LoRA	向Transformer层注入低秩矩阵(ΔW = A·B),仅训练A、B。	显存节省70%,支持多任务切换(替换矩阵)Adapter	在FFN层后插入小型全连接层,仅训练该模块。	增加推理延迟(约4%),适合串行部署Prompt Tuning	学习软提示(Soft Prompt)向量,拼接输入端。	几乎不增加计算量,但对超参数敏感QLoRA	LoRA + 4-bit量化(用NF4存储预训练权重),GPU显存需求降低至1/3。	可在24GB消费级显卡微调65B模型(如Llama 2

按“微调目标与方法”划分
这种分类方法的核心问题是:微调的目标是什么(教模型做什么)?用什么数据和方法实现?(即训练范式)
监督微调(Supervised Fine-Tuning, SFT)

用人工标注的“输入-输出”(监督数据)训练模型,
通过最小化预测输出与目标输出的损失(如交叉熵),
让模型学习“在特定输入下生成正确输出”。指令微调(Instruction Tuning):使用多样化的指令 - 响应数据训练模型,使其理解并遵循人类指令,它属于SFT的一种,但数据从“输入-输出”升级为“自然语言指令-响应”,目标是让模型理解并执行任意自然语言指令,指令微调侧重 “指令”,SFT 侧重 “响应”

基于人类反馈的强化学习(RLHF)

通过人类对模型输出的偏好反馈(如排序、评分)训练“奖励模型”,再用强化学习(如PPO算法)优化模型,让输出更符合人类价值观(如“更安全”“更有用”“更诚实”)。用于对齐阶段,属于微调的一种, 目标是让模型安全、有用、符合人类偏好。
方法是
奖励模型(Reward Model, RM)(通常基于 SFT 模型结构)输入 “问题 + 输出”,输出一个分数(分数越高越符合人类偏好)用 RM 的分数作为 “奖励”,通过强化学习优化模型,让其生成更符合人类偏好的内容。

多任务微调:
数据: 混合任务标注数据;
目标: 提升跨任务泛化能力

领域微调:
数据: 特定领域文本(如医疗、法律)无严格格式(相当于用隐私数据在训练一下)
目标: 适应专业领域
通常在预训练后、任务微调前(为领域任务打基础)

  1. 对齐
    目标是让AI系统的行为与人类需求、偏好和价值观保持一致
    翻译成人话就是:“减少有害信息输出,使输出更加友好(会说话)”; 有害信息包括不限于,虚假,无效,违法,犯罪,反动,色情,暴力…等信息,
    除了RLHF(强化学习从人类反馈)还有其他对齐方法
RLOO(RL from AI Feedback):用 AI 替代人类标注偏好数据(降低成本);
DPO(Direct Preference Optimization):直接用人类偏好数据微调模型,无需训练奖励模型(简化流程);
安全微调(Safety Fine-tuning):用 “有害指令 + 安全响应” 数据微调,让模型拒绝生成有害内容(如 “如何制作炸弹”→“抱歉,我不能提供此类信息”)。
  1. 评估 验证 “模型性能”
    评估需覆盖能力、安全、效率等多维度,贯穿训练全流程(预训练、SFT、对齐后均需评估)。
基础能力:语言理解(如分词、语义相似性)、生成质量(流畅度、连贯性)、推理能力(逻辑推理、数学计算)、知识覆盖(事实准确性);
任务性能:在标准基准测试上的表现(如 MMLU 测试知识问答,GLUE 测试语言理解,HumanEval 测试代码生成);
安全性:通过 “红队测试”(用有害指令诱导模型)评估是否生成有害内容;
对齐度:人工评估模型输出是否符合人类偏好(如简洁性、相关性);
效率:推理速度(tokens / 秒)、显存占用、训练 / 推理成本。
  1. 部署
    部署的目标是让模型在实际场景中高效可用(如 API 服务、App 集成)。
    常见操作有
    模型压缩
量化:将参数从 FP32 转为 INT8/INT4(如 GPTQ、AWQ 技术),显存占用可降低 75% 以上,几乎不损失性能;
剪枝:移除冗余参数(如不重要的注意力头或神经元);
知识蒸馏:用大模型(教师)教小模型(学生),保留核心能力。

推理优化

推理引擎:用优化的推理框架(如 TensorRT-LLM、vLLM)加速生成速度(支持批量推理、连续批处理);
上下文缓存:缓存输入文本的计算结果(如注意力矩阵),避免重复计算。

部署与监控

部署形式:以 API 服务(如 OpenAI 的 ChatCompletion)、本地部署(如企业私有云)或边缘设备(如手机)形式落地;
持续监控:跟踪模型输出的安全性(如用过滤器拦截有害内容)、性能变化(如是否出现 “模型漂移”),并基于用户反馈迭代优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/89655.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/89655.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【后端】配置SqlSugar ORM框架并添加仓储

目录 1.添加包 2.配置连接字符串 3.配置SqlSugar 3.1.添加基础类 3.2.添加方法 3.2.1.读取配置方法 3.2.2.枚举扩展方法 3.3.添加管理类(重要) 4.配置仓储 4.1.仓储接口添加 5.注册 6.使用 该文档是配置SqlSugar多租户和加仓储教程。使用 S…

全国高等院校计算机基础教育研究会2025学术年会在西宁成功举办 ——高原论道启新程,数智融合育英才

7 月16日至18日,全国高等院校计算机基础教育研究会2025学术年会在青海西宁隆重召开。大会以“数智融合,创新计算机教育”为主题,汇聚人工智能领域顶尖专家学者、高校校长、产业翘楚及一线教师300 多人,共商人工智能时代计算机基础…

AppTrace:重新定义免填邀请码,解锁用户裂变新高度

​​在移动互联网时代,​用户裂变是App增长的核心引擎,而邀请机制则是裂变的关键驱动力。然而,传统的邀请码机制——依赖用户手动输入、记忆复杂字符——已经成为用户体验的绊脚石,导致转化率下降、运营成本上升。​AppTrace​ 作…

神经网络常见激活函数 13-Softplus函数

文章目录Softplus函数导函数函数和导函数图像优缺点PyTorch 中的 Softplus 函数TensorFlow 中的 Softplus 函数Softplus 函数导函数 Softplus函数 Softplus⁡(x)ln⁡(1ex)\begin{aligned} \operatorname{Softplus}(x) & \ln \bigl(1 e^{\,x}\bigr) \end{aligned} Softplu…

深度理解 KVM:Linux 内核系统学习的重要角度

📖 推荐阅读:《Yocto项目实战教程:高效定制嵌入式Linux系统》 🎥 更多学习视频请关注 B 站:嵌入式Jerry 深度理解 KVM:Linux 内核系统学习的重要角度 作者:嵌入式 Jerry 一、为什么开发者需要学习 KVM&…

闭包的定义和应用场景

一、闭包是什么? 闭包是指函数可以“记住”并访问它定义时的词法作用域,即使这个函数在其作用域链之外执行。 简单说:函数 A 在函数 B 中被定义,并在函数 B 外部被调用,它依然能访问函数 B 中的变量,这就是…

北京-4年功能测试2年空窗-报培训班学测开-第五十四天

今天交付的成果是,初版简历虽然只写了项目部分,但用了一整天,期间联系了前司组长,拿到了性能测试报告。然后再看压测脚本,突然能看懂了,对服务端日志也能看懂些了,还找到了客户端日志怎么说呢&a…

算法训练营day24 回溯算法③ 93.复原IP地址 、78.子集、 90.子集II

今天继续回溯算法的专题,第三篇博客! 93.复原IP地址 输入:s "25525511135" 输出:["255.255.11.135","255.255.111.35"] 切割字符串为4段,当进行到第四段的时候对第四段字符串进行判断…

jeccg-boot框架实现xls模板导出功能

文章目录一、后端部分二、前端部分三、模板制作一、后端部分 //1、在application-dev.yml文件增加模板路径path :#模板路径saxls: /data/opt/saxls/ //2、控制层写法 public class sabassalController extends JeecgController<sabassalVo, IsabassalService> {Autowired…

LangChain4j入门:Java开发者的AI应用开发指南

&#x1f680; 在AI浪潮席卷全球的今天&#xff0c;Java开发者如何快速上手大语言模型应用开发&#xff1f;LangChain4j为我们提供了完美的解决方案&#xff01; 前言&#xff1a;为什么Java开发者需要LangChain4j&#xff1f; 想象一下&#xff0c;你正在开发一个企业级应用&…

相机光学(五十)——Depth AF

1.什么是Depth AFDepth AF&#xff08;景深自动对焦&#xff09;&#xff0c;也称为 Depth-of-Field AF&#xff08;景深对焦&#xff09; 或 DEP AF&#xff0c;是一种基于景深范围的自动对焦技术&#xff0c;核心目标是&#xff1a;确保从前景到背景的一整段距离都在清晰景深…

Unity 堆栈分析实战指南 C#

Unity 堆栈分析实战指南 提示&#xff1a;内容纯个人编写&#xff0c;欢迎评论点赞&#xff0c;来指正我。 文章目录Unity 堆栈分析实战指南1. 前言2. 什么是堆栈3. Unity 中的堆栈4. 堆栈分析工具5. 如何进行堆栈分析6. 实战案例分析案例 1: 性能瓶颈分析案例 2: 内存泄漏检测…

AE MDX L6 L12 L18 电源手侧操作使用说明

AE MDX L6 L12 L18 电源手侧操作使用说明

Gemini Function Calling 和 Qwen3 Embedding和ReRanker模型

Gemini API 的函数调用&#xff08;Function Calling&#xff09;功能。它解决了传统大语言模型&#xff08;LLM&#xff09;的一个关键局限&#xff1a;LLM 本身是基于训练数据的“知识库”&#xff0c;擅长生成文本和回答问题&#xff0c;但无法直接执行代码、访问实时数据或…

​​VMware Workstation Pro 17.5.0 安装教程 - 详细步骤图解(附下载+激活)​

VMware Workstation Pro 17.5.0 是一款功能强大的虚拟机软件&#xff0c;允许用户在一台计算机上同时运行多个操作系统&#xff08;如 Windows、Linux、macOS&#xff09;&#xff0c;适用于开发、测试、运维及学习环境搭建。本教程提供 ​​详细安装步骤​​&#xff0c;包括 …

端到端神经网络视频编解码器介绍

一、技术演进&#xff1a;从模块优化到全局智能的范式跃迁 传统编解码器的效率天花板&#xff08;1990-2017&#xff09; 架构局限&#xff1a;H.264/HEVC依赖手工设计的运动估计、DCT变换、熵编码模块&#xff0c;各模块独立优化导致全局效率损失。高分辨率瓶颈&#xff1a;4…

Kubernetes (k8s)环境重启Pod方式总结

前言&#xff1a;在 Kubernetes (k8s) 中&#xff0c;没有直接的命令如 kubectl restart pod 来重启 Pod&#xff0c;因为 Pod 的生命周期由控制器&#xff08;如 Deployments、StatefulSets 或 ReplicaSets&#xff09;管理。重启操作本质上是通过删除并重建 Pod 来实现的&…

OOA、OOD 与 OOP:面向对象范式的核心支柱详解

作为软件系统架构的核心范式&#xff0c;面向对象方法贯穿软件开发生命周期。OOA、OOD 和 OOP 分别代表分析、设计和实现三个关键阶段&#xff0c;共同构成一个连贯的工程体系。一、OOA (Object-Oriented Analysis&#xff0c;面向对象分析) 目标&#xff1a;理解问题域&#x…

GBase 8a 与 Spring Boot + MyBatis 整合实战:从环境搭建到CRUD操作

一、引言 在企业级数据管理场景中&#xff0c;GBase数据库凭借其高性能的数据分析能力和对SQL标准的良好兼容性&#xff0c;成为金融、电信等行业的常用选择。本文将详细演示如何将GBase数据库与Spring Boot、MyBatis框架整合&#xff0c;实现高效的数据持久化操作&#xff0c…

功能安全之BIST的基本原理

BIST&#xff08;Built-In Self-Test&#xff0c;内建自测试&#xff09;是一种将测试功能直接集成到集成电路&#xff08;IC&#xff09;或系统内部的设计方法。其基本原理的核心在于&#xff1a;让被测试电路自身&#xff08;或借助少量专用硬件&#xff09;来生成测试激励、…