大语言模型(LLM)专业术语汇总

1. 训练与部署

1.1 预训练

  • 专业:在海量无标注文本(如Common Crawl、Wikipedia)上通过自监督学习训练基础语言模型,学习通用语言表征(如GPT-3训练数据达45TB)。
  • 通俗:AI的“通识教育阶段”,通过阅读互联网百科全书掌握基本语言规则。

1.2 微调(SFT)

  • 专业:使用任务特定标注数据(如问答对、指令集)调整预训练模型参数,适配下游任务格式(如ChatGPT对话优化)。
  • 通俗:针对具体岗位(如客服、翻译)进行的“职业技能培训”。

1.3 奖励模型训练

  • 专业:通过人类标注员对模型输出排序(如A/B测试),训练一个可量化输出质量的奖励函数(Reward Model)。
  • 通俗:教练给AI的答案“打分”,教会它分辨好坏回答。

1.4 强化学习微调(RLHF)

  • 专业:结合奖励模型与PPO算法,优化策略模型生成符合人类偏好的输出(如Anthropic Claude的安全对齐)。
  • 通俗:AI通过“考试评分+自我改进”循环,学会答得更得体。

2. 模型架构

2.1 Transformer

  • 专业:基于自注意力机制的神经网络,支持并行处理长序列(如输入4096 Token),是LLM的通用基础架构(如GPT、BERT)。
  • 通俗:AI理解语言的“中央处理器”,能同时关联全文信息。

2.2 MoE(稀疏专家模型)

  • 专业:动态路由机制激活部分专家网络(如Mixtral-8x7B每输入仅用2个专家),提升模型容量且控制计算成本。
  • 通俗:“专家委员会”模式,不同问题自动分配专业AI解答。

2.3 编码器-解码器

  • 专业:编码器压缩输入语义,解码器生成目标序列(如T5统一文本到文本框架)。
  • 通俗:AI先“听懂问题”(编码),再“组织答案”(解码)。

3. 模型类型

3.1 量化模型(INT4/INT8)

  • 专业:将FP32权重压缩为4/8位整数,显存占用减少75%(如LLM.int4()),精度损失<1%。
  • 通俗:模型“极限瘦身”,手机也能运行百亿参数AI。

3.2 非量化模型(FP32/FP16)

  • 专业:保留全精度浮点数权重,训练稳定性高但推理成本高(如科研场景常用FP16)。
  • 通俗:AI的“原装大脑”,精度最高但耗电量大。
3.2.1 FP32(单精度浮点数)
专业定义
  • 全称:32-bit Floating Point(32位浮点数)
  • 二进制结构
1 位符号位 | 8 位指数位 | 23 位尾数位
───────────┬────────────┬────────────正负号    指数范围     小数精度
  • 数值范围:±3.4×10³⁸
  • 精度:约7位有效十进制数字
通俗类比

相当于数学中的“精确计算器”,适合需要高精度的场景(如财务核算),但占用存储空间较大。

LLM中的应用
  • 训练阶段主流格式
    • 梯度计算需要高精度防止数值溢出
    • 示例:训练GPT-3时全程使用FP32
  • 显存占用
70亿参数模型 ≈ 70亿 × 4字节 = 28 GB

3.2.2 FP16(半精度浮点数)
专业定义
  • 全称:16-bit Floating Point(16位浮点数)
  • 二进制结构
1 位符号位 | 5 位指数位 | 10 位尾数位
───────────┬────────────┬────────────正负号    指数范围     小数精度
  • 数值范围:±6.5×10⁴
  • 精度:约3-4位有效十进制数字
通俗类比

相当于“便携计算器”,计算速度快、省电,但复杂运算可能舍入误差。

LLM中的应用
  1. 推理加速
    • 显存占用减半(FP32的50%)
70亿参数模型:28GB → 14GB
- 示例:ChatGPT实时响应使用FP16推理
  1. 混合精度训练
    • 结合FP16+FP32(梯度用FP32防溢出)
    • 速度提升2-3倍(NVIDIA Tensor Core支持)

3.3 蒸馏模型

  • 专业:小模型(学生)模仿大模型(教师)的输出分布,体积缩小60%保留95%性能(如DistilBERT)。
  • 通俗:“高手带徒弟”,小模型继承大模型的经验智慧。

3.4 推理优化模型

  • 专业:通过层融合、内核优化提升推理速度(如vLLM引擎的PagedAttention技术)。
  • 通俗:给AI思维“装上涡轮增压”,回答快3倍。

4. 参数与规模

4.1 小型(<1B)

  • 代表模型:Microsoft Phi-2(27亿参数)
  • 特点:可在手机端部署(如Android App),响应延迟<100ms。

4.2 中型(1B~10B)

  • 代表模型:Meta Llama2-7B、ChatGLM3-6B
  • 特点:单卡消费级GPU(RTX 4090)可运行,适合企业私有化部署。

4.3 大型(10B~100B)

  • 代表模型:GPT-4(约1.8T MoE)、Claude 3(公开版40B)
  • 特点:需8卡A100集群,具备复杂逻辑推理与多任务泛化能力。

4.4 超大规模(>100B)

  • 代表模型:Google Gemini Ultra、Anthropic Claude 3.5
  • 特点:千亿级参数,需专用AI芯片(如TPU v5)集群训练,支持跨模态理解。

5. 生成策略

5.1 解码策略

  • 贪心搜索:每一步选最高概率词,输出确定但易重复(如ATM密码生成)。
  • 束搜索(Beam Search):保留Top-k路径,平衡质量与多样性(如医疗报告生成)。

5.2 Top-k采样

  • 专业:从概率最高的k个候选词中随机采样(k=50为常见值),避免低质量输出。
  • 通俗:AI从“高分答案库”随机抽选,兼顾准确与创意。

5.3 温度控制

  • 专业:调整Softmax概率分布陡度:P_i = exp(z_i/T)/Σexp(z_j/T),低温(T=0.1)保守,高温(T=1.0)创意迸发。
  • 通俗:控制AI“脑洞温度”,低温写合同,高温写诗歌。

5.4 频率惩罚

  • 专业:基于重复次数的对数概率衰减:P(token) = P_original / (1 + λ * count),抑制循环输出(λ=0.5~2.0)。
  • 通俗:防AI“复读机模式”,避免同一词反复出现。

6. 评估与优化

6.1 困惑度

  • 专业:衡量模型预测样本不确定性的指标,越低越好(GPT-4的困惑度≈10.2)。
  • 通俗:AI答题的“迷惑程度”,数值越低说明越自信准确。

6.2 LoRA / PEFT

  • 专业:注入可训练低秩矩阵(ΔW=BA),仅微调0.1%参数(QLoRA支持4-bit微调)。
  • 通俗:给AI“打技能补丁”,升级专业能力不重建大脑。

6.3 RAG

  • 专业:结合FAISS向量检索与LLM生成,通过外部知识库注入提升事实准确性(如企业知识库问答)。
  • 通俗:AI答题前先“翻参考书”,拒绝信口开河。

7. 硬件与算力

7.1 算力

  • 专业表述:算力(Computing Power)是计算机设备或计算系统处理信息的能力,涵盖硬件计算性能(如CPU/GPU的运算速度)与软件算法的协同效率。狭义上以每秒浮点运算次数(FLOPS) 为核心指标,用于量化理论峰值性能。
  • 通俗类比数字世界的“体力值”:算力决定智能设备处理任务的速度上限,如同体力越强的人工作效率越高。手机刷脸支付需0.1秒完成上亿次计算,即高算力的体现
  • 示例:一台超算的算力为1 EFLOPS = 每秒100亿亿次浮点运算。

7.2 通用服务器

  • 配置示例:双路Intel Xeon + 8×NVIDIA A100(80GB),支持70B模型推理。

7.3 高性能计算

  • 技术方案
    • 张量并行(Tensor Parallelism):单层计算拆分多GPU(如Megatron-LM)。
    • 流水线并行(Pipeline Parallelism):模型层拆分不同设备(如DeepSpeed)。

7.4 分布式部署

  • 边缘计算:INT4量化模型 + Jetson Orin模块,工业设备本地故障诊断。
  • 云边协同:中心云训练(H100集群) → 边缘端部署(INT4蒸馏模型)。

资料来源于网络

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/912726.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/912726.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Java Swing 图形界面编程】JList 列表组件 ① ( JList 组件简介 | 核心作用 | 关键特性 | 基础用法示例 )

文章目录 一、JList 组件简介1、JList 概念简介2、JList 核心作用3、JList 关键特性 二、JList 组件基础用法示例1、使用 String 数组构建列表项2、使用 Vector 集合构建列表项3、使用 DefaultListModel 构建列表项 一、JList 组件简介 1、JList 概念简介 基本概念 : JList 组件…

【小技巧】Python+PyCharm IDE 配置解释器出错,环境配置不完整或不兼容。(小智AI、MCP、聚合数据、实时新闻查询、NBA赛事查询)

报错信息如下&#xff1a; [unsupported] Python 3.1 (mcp-calculator-main) (3) C:\Users(xsshu\AppData\Local\Programs\Python\Python313\python.exe [unsupported] Python 3.1 C:\Users\xsshu\AppData\Local\Programs\Python\Python311\python.exe 这条输出显示了两个 Pyth…

Ragflow 前后端登录逻辑

前端登录逻辑 路由配置&#xff1a; /login 路由指向 /pages/login 组件。登录表单使用 Ant Design 的 Form, Input, 和 Button 组件。 登录表单处理&#xff1a; 使用 useLogin钩子来处理登录请求。密码通过 RSA 加密后再发送到服务器。成功登录后导航至 /knowledge 页面。 …

基于图神经网络的ALS候选药物预测模型设计与实现

基于图神经网络的ALS候选药物预测模型设计与实现 一、任务背景与意义 肌萎缩侧索硬化症(ALS)是一种致命的神经退行性疾病,目前尚无有效治愈方法。传统药物发现流程耗时长、成本高,而人工智能技术为加速药物发现提供了新途径。本文设计并实现了一个基于图神经网络(GNN)的…

运维打铁: 数据加密与备份恢复策略制定

文章目录 思维导图一、数据加密1. 加密算法选择AES 加密示例&#xff08;Python&#xff09;RSA 加密示例&#xff08;Python&#xff09; 2. 密钥管理3. 加密范围 二、数据备份1. 备份类型全量备份增量备份差异备份 2. 备份频率3. 备份存储位置 三、数据恢复1. 恢复测试2. 恢复…

AIbase MCP服务库上线:集成服务器、客户端、案例教程等服务

在当今数字化时代&#xff0c;人工智能技术正以前所未有的速度发展&#xff0c;深刻地改变着我们的生活和工作方式。而要充分发挥AI的强大能力&#xff0c;离不开高效的工具和服务支持。今天&#xff0c;就让我们来了解一下一个专注于MCP&#xff08;Model Context Protocol&am…

QGIS+CesiumIon

前言 QGIS 3.44中&#xff0c;新增了3D 场景新增地球视图模式&#xff0c;通过Cesium ion插件&#xff0c;支持谷歌全球倾斜模型的加载显示。 目录 1 CesiumIon插件安装 2 加载谷歌全球倾斜模型 1、CesiumIon插件安装 点击菜单【Plugins】->【Manage and Install Plugins】…

TEXT Introduction

我们是谁 美国计算机奥林匹克竞赛通过培训、竞赛和国际比赛来促进大学前的计算机学习。 数个教练将会组织、领导、陪伴代表美国参加国际性奥林匹克竞赛的学生。 你可以在 USACO 官网了解更多。 USACO 的目标 USACO 的具体目标包括&#xff1a; 训练美国的队伍并且在下一届奥…

Fluent许可服务器设置教程

Fluent作为一款广泛使用的流体动力学模拟软件&#xff0c;其高效的许可管理系统是确保顺畅运行的关键。为了帮助您更好地掌握Fluent许可服务器的设置方法&#xff0c;本文将为您提供一份详细的设置教程&#xff0c;让您轻松配置&#xff0c;高效运行Fluent软件。 一、Fluent许可…

vue3中实现高德地图POI搜索(附源码)

引言 上一篇文章详细讲解了vue3中实现高德地图地址搜索自动提示&#xff08;附源码&#xff09;&#x1f517;&#xff0c;本文将重点介绍POI搜索功能的实现。 1. 功能介绍 POI(Point of Interest) 搜索用于查找特定位置或区域内的兴趣点&#xff0c;如餐馆、商场、景点等。…

机器学习在计算机视觉中的应用

引言 计算机视觉&#xff08;Computer Vision&#xff09;是人工智能的重要分支&#xff0c;旨在让计算机像人类一样“看懂”图像和视频。近年来&#xff0c;随着深度学习&#xff08;Deep Learning&#xff09;的快速发展&#xff0c;计算机视觉在多个领域取得了突破性进展。…

新手向:从零开始Node.js超详细安装、配置与使用指南

什么是Node.js&#xff1f; 简单来说&#xff1a; Node.js 是一个在服务器端运行 JavaScript 的环境。 以前JavaScript只能做网页特效&#xff0c;现在用它就能开发网站后台、命令行工具甚至桌面应用&#xff01; 第一步&#xff1a;安装Node.js&#xff08;多系统详解&#x…

VR全景平台的概念和用途

VR全景平台&#xff1a;沉浸式体验篇章 在数字化飞速发展的今天&#xff0c;VR全景平台作为新兴的技术应用平台&#xff0c;逐渐走进我们的日常生活。那么&#xff0c;什么是VR全景平台&#xff1f;众趣科技是否有涉足这一领域&#xff1f;众趣科技VR全景平台又具备哪些独特的…

深入解析外观模式(Facade Pattern):简化复杂系统的优雅设计

深入解析外观模式&#xff08;Facade Pattern&#xff09;&#xff1a;简化复杂系统的优雅设计 &#x1f31f; 嗨&#xff0c;我是IRpickstars&#xff01; &#x1f30c; 总有一行代码&#xff0c;能点亮万千星辰。 &#x1f50d; 在技术的宇宙中&#xff0c;我愿做永不停歇…

2.2.1 配置Linux审计日志

文章目录 一、试题及考试说明二、操作步骤1. 启动 Auditd 服务并设置其开机自启2. 创建一个规则来监控/etc/test/auditd_test 文件上的所有写入操作&#xff0c;并给这些审计记录加上标签file_access3. 设置审计日志保存在/etc/test/audit/audit.log4. 设置审计日志的滚动机制&…

使用Puppeteer提取页面内容的技巧

在现代的Web开发和爬虫开发中&#xff0c;Puppeteer是一个非常强大的工具&#xff0c;它可以帮助我们自动化浏览器操作&#xff0c;提取页面内容。本文将从初阶到高阶&#xff0c;详细介绍如何使用Puppeteer提取页面内容的各种技巧&#xff0c;特别关注多层类关系选择器的使用。…

SQL server 获取表中所有行的序号

在SQL Server中&#xff0c;要获取某个表中的某一行所在的记录总数&#xff0c;通常有几种方法可以实现&#xff0c;具体使用哪种方法取决于你的具体需求。以下是几种常见的方法&#xff1a; 1. 使用COUNT()函数结合子查询 如果你想要知道某个特定行在表中的位置&#xff08;…

《CSDN 用户视角:见证 AI 重构企业办公,在智能协同、数据驱动下实现组织进化》

在数字化转型的大潮汹涌而至的当下&#xff0c;人工智能&#xff08;AI&#xff09;宛如一场疾风骤雨&#xff0c;以前所未有的速度重塑着企业办公的格局。从琐碎流程的自动化&#xff0c;到智能决策的深度赋能&#xff0c;AI 技术正掀起一场对传统工作模式的彻底颠覆&#xff…

PYQT实战:天气助手

应用采用了现代化的界面设计&#xff0c;包括圆角边框、卡片式布局和响应式建议功能。 这个天气应用可以作为学习PyQt5开发的实例&#xff0c;展示了GUI设计、定时更新、数据处理和用户交互的实现方法 #!/usr/bin/env python # -*- coding: GBK -*- import sys import request…

PL-SLAM: Real-Time Monocular Visual SLAM with Points and Lines

PL-SLAM 文章目录 PL-SLAM摘要系统介绍综述方法综述LINE-BASED SLAM一、基于线的SLAM二、基于线和点的BA三、全局重定位使用线条初始化地图实验结果说明位姿求解三角化LSD 直线检测算法📊 **一、核心原理**⚙️ **二、实现方法**📐 **三、应用场景**⚖️ **四、优缺点与优化…