【AI大模型入门指南】概念与专有名词详解 (二)

【AI大模型入门指南】概念与专有名词详解 (二)

一 、前言

当你和聊天机器人聊得天花乱坠时,当你用文字让AI生成精美图片时,当手机相册自动帮你分类照片时 —— 这些看似智能的操作背后,都藏着 AI 大模型的身影。

本文将用最接地气的比喻和案例,带新手穿透专业术语的迷雾:从大模型家族,再到模型调教的核心逻辑(如何给模型喂数据、怎么让它瘦身提速)。

无论你是对 AI 好奇的小白,还是想梳理知识框架的学习者,都可以有所收获。

二、大模型专有名词解释

(一)模型家族成员

模型名称核心架构/特点通俗比喻典型应用场景代表作/说明
大语言模型(LLM)采用Transformer架构,在海量文本数据中训练自然语言处理领域的“大佬”写文章、做翻译、回答问题等GPT系列、文心一言
循环神经网络(RNN)擅长处理序列数据,但长距离理解能力较弱像记忆力不好的人,读长句子易“断片”自然语言处理中的序列数据处理/
长短期记忆网络(LSTM)RNN的改进版,增加特殊门控机制RNN的“加强版”,解决了记忆问题更擅长处理长文本/
卷积神经网络(CNN)通过卷积、池化操作提取图像特征图像识别的“主力军”计算机视觉领域的图像识别等任务/
混合专家模型(MoE)包含多个“专家”,根据任务选择合适“专家”处理并整合结果有多个“专家”分工协作处理大规模数据/
图神经网络(GNN)专门处理图形结构数据图形结构数据处理的“专家”社交网络分析、分子结构研究等/

(二)训练那些事儿

1、预训练:让模型在海量无标注数据上“自学”,掌握通用知识,为后续学习打基础。

2、微调:在预训练基础上,用特定领域少量有标注数据“开小灶”,让模型适应具体任务,比如让通用语言模型学会医疗术语。

3、监督微调(SFT):微调的一种,用标注好的“标准答案”数据训练,让模型在特定任务上表现更出色。

4、少样本学习:只给模型看少量示例,它就能快速学会新任务,靠的是之前预训练积累的“知识”。

5、 零样本学习:模型没见过相关数据也能推理,比如没见过独角兽,也能根据已有概念和描述回答相关问题。

6、对抗训练:生成器和判别器“互相对抗”,生成器生成“假数据”,判别器分辨真假,让模型更抗干扰,更鲁棒。

7、 超参数调优:超参数是训练前要设置的“学习参数”,像学习率、批量大小等,通过各种方法找到最佳组合,让模型学习效果更好。

(三)其他重要概念

1、注意力机制:让模型在处理数据时,能重点关注关键部分,就像看书时用荧光笔标记重点内容。

2、位置编码:给Transformer模型“补课”,让它记住数据的顺序,不然模型容易“分不清先后”。

3、激活函数:给神经网络增加“灵活性”,引入非线性因素,让模型能学习复杂模式,ReLU函数就是常见的“得力助手”。

4、嵌入层:把离散数据(如单词)转换成连续向量,让模型能理解单词的语义,还能计算单词相似度。

三、AI大模型的调教步骤

1、模型架构:Transformer——大模型的“黄金骨架”
在这里插入图片描述

Transformer架构是大模型的“黄金骨架”,它的核心自注意力机制,就像给模型装上了“鹰眼”,在处理文本等序列数据时,能同时关注每个位置,轻松捕捉长距离依赖关系。

和传统RNN相比,Transformer在并行计算上优势巨大,训练速度就像坐了火箭。在机器翻译中,它能精准理解源语言句子里词汇的关系,翻译出更流畅的译文。

还有很多对Transformer的改进,比如Sparse Attention减少不必要计算,Longformer专为长文本优化,让大模型处理数据更高效。

2、数据处理与预训练:大模型的“营养餐”
在这里插入图片描述

训练大模型前,要先给它准备“营养餐”——处理海量数据。得先把数据里的“杂质”(错误、重复、无关信息)去掉,比如处理文本时要删掉拼写错误。

对于多模态数据,还得想办法把不同形式的数据“融合”在一起,让模型学习它们之间的联系。

预训练有两种主要方式:自回归,像GPT,根据前文预测下一个单词,一点点“编”出文本;自编码,像BERT,遮住部分输入让模型猜,以此学习文本语义和语法。

3、模型训练与优化:大模型的“高效学习法”

在这里插入图片描述

大模型参数太多,训练起来超费时间和资源,所以要用分布式训练。数据并行就像一群人分工合作,每个设备处理一部分数据,最后汇总结果;模型并行则是把模型拆分到不同设备上计算,大家齐心协力加快训练速度。

还有混合精度训练,就像灵活切换学习工具,用低精度数据快速计算,关键地方再用高精度数据保证准确,既能提速又能省显存。

大批量训练可以减少训练次数,但得调整好学习率等参数,不然模型容易“学歪”。

4、模型压缩:给大模型“瘦身”
在这里插入图片描述

大模型训练好后“体型庞大”,部署起来成本高,所以要“瘦身”。

模型蒸馏是让小模型向大模型“拜师学艺”,小模型学到大模型的知识后,性能不错还更轻便;参数量化降低权重精度,就像把书里的字变小,不影响理解还省空间。稀疏化去掉冗余参数,让模型更简洁高效。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/86683.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AIStor 的模型上下文协议 (MCP) 服务器:管理功能

在本系列的上一篇博文中,我们讨论了 MinIO AIStor 的模型上下文协议 (MCP) 服务器的基本用户级功能。我们学习了如何使用人类语言命令查看存储桶的内容、分析对象并标记它们以便将来处理,以及如何通过 LLM(例如 Anthropic Claude)…

期权末日轮实值期权盈利未平仓怎么办?

本文主要介绍期权末日轮实值期权盈利未平仓怎么办?期权末日轮实值期权盈利未平仓该怎么办,需要明确几个关键点:末日轮指的是期权到期日临近的时候,通常指最后一周,尤其是最后一天,这时候时间价值衰减很快&a…

C++/Qt 联合编程中的定时器使用陷阱:QObject::startTimer 报错详解

在 Qt 开发中,QTimer 是一个常用的工具类,用于处理定时事件。但不少开发者在 C/Qt 联合编程,尤其是在工具类、静态类、线程中使用定时器时,会遇到如下令人困惑的报错: QObject::startTimer: Timers can only be used …

CentOS7.9 查询运维安全日志,排查恶意用户

1、查看系统版本 cat /etc/redhat-release uname -a 2、查看所有账号 cat /etc/shadow 3、修改 root 密码 passwd 3、查看账号ID id jinzhi 4、查看登录日志 lastlog 5、查看操作日志 cat .bash_history sudo cat /home/yunwei/.bash_history sudo grep root /va…

多模态大语言模型arxiv论文略读(117)

Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity ➡️ 论文标题:Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity ➡️ 论文作者:Ren-Di Wu, Yu-Yen L…

如何正确的配置eureka server集群

将 Eureka Server 实例的 hostname 都配置成相同的值,在 Eureka Server 集群环境下同样是不推荐且通常会导致严重问题的, 核心问题:Eureka Server 集群的工作机制 Eureka Server 集群通过相互注册(Peering)来实现高可…

AI支持下的-ArcGIS数据处理、空间分析、可视化及多案例综合应用

查看原文>>> 从入门到精通-AI支持下的-ArcGIS数据处理、空间分析、可视化及多案例综合应用 结合ArcGIS和GPT的优势,本文重点进行AI大模型应用、ArcGIS工作流程及功能、Prompt使用技巧、AI助力工作流程、AI助力数据读取与处理、AI助力空间分析、AI助力遥感…

vue3-ts: v-model 和 props 的关系

在 Vue.js 中,v-model 是一个语法糖,它实际上是 :value 和 input 事件的组合。 当你使用 v-model 绑定一个组件时,默认情况下,组件会通过 props 接收 value 这个 prop, 并通过触发 input 事件来更新父组件中的数据。 …

学车笔记 变挡

超15就可以加一档了 有些人对手动挡的档位有一些误解_哔哩哔哩_bilibili 献给所有新司机.开手动档摆脱顿挫的根本方法.学会看转速!没那么复杂!_哔哩哔哩_bilibili 减速到怠速降一档

STM32的DMA简介

STM32的DMA简介 一、DMA概述 DMA(Direct Memory Access,直接存储器存取)是一种硬件机制,它允许外设和存储器之间或者存储器和存储器之间进行高速数据传输,而无需CPU的干预。这种机制可以极大地节省CPU资源&#xff0c…

Spring-AOP知识点

一、AOP简介 1.AOP概念 2.AOP思想实现方案 3.AOP相关概念 二、基于xml配置AOP 1.快速入门 2.AOP配置详解 3.AOP原理剖析 三、基于注解配置AOP 1.快速入门 2.注解方式AOP配置详解 抽取切点表达式

Java@Data 与 @NotNull 注解冲突问题

第一章:核心概念解析 1. Data(Lombok 提供) 自动生成以下方法: gettersettertoString()equals()hashCode() 简化实体类编写,提高开发效率。 示例: import lombok.Data;Data public class User {private…

离线部署openstack 2024.1 glance

控制节点镜像服务 离线下载 apt install --download-only glancemkdir /controller/glance mv /var/cache/apt/archives/*.deb /controller/glance/ dpkg -i /controller/glance/*.deb在一个控制节点操作 CREATE DATABASE glance; GRANT ALL PRIVILEGES ON glance.* TO glan…

.NET AOT 详解

简介 AOT(Ahead-Of-Time Compilation)是一种将代码直接编译为机器码的技术,与传统的 JIT(Just-In-Time Compilation)编译方式形成对比。在.NET 中,AOT 编译可以在应用发布时将 IL(中间语言&…

博客系统自动化测试

基于SSM(Spring Spring MVC MyBatis)框架构建的个人博客系统,通过分层架构实现高效协作:Spring负责依赖注入与事务管理,Spring MVC处理HTTP请求分发,MyBatis完成数据持久化操作。系统包含以下核心功能模块…

animate.css详解:轻松实现网页动画效果

前言 在网页设计中,动画效果不仅仅是视觉上的装饰,更是提升用户体验的重要元素。animate.css 作为一个轻量级的 CSS 动画库,提供了丰富的预设动画效果,本文将探讨 animate.css 使用方法以及在实际项目中的应用案例,帮助…

【多智能体】基于嵌套进化算法的多代理工作流

😊你好,我是小航,一个正在变秃、变强的文艺倾年。 🔔本专栏《人工智能》旨在记录最新的科研前沿,包括大模型、具身智能、智能体等相关领域,期待与你一同探索、学习、进步,一起卷起来叭&#xff…

电源知多少?LDO VS DCDC((下)

首先补充几个上一节没有提到的知识,我们通常说的DCDC同步整流是指什么? 同步是指采用通态电阻极低的专用功率MOS来取代整流二极管以降低整流损耗,,但是同步整流有以下两点需要注意:1、MOS在导通之后的压降比较低&…

数组方法_push()/pop()/数组方法_shift()/unshift()

push 方法用于在数组的末端添加一个或多个元素,并返回添加新元 素后的数组长度。注意,该方法会改变原数组 var arr [];arr.push("颤三") // 1arr.push(itbaizhan) // 2arr.push(true, {}) // 4arr // [颤三 , itbaizhan, true, {}] pop 方法用…

脑机新手指南(八):OpenBCI_GUI:从环境搭建到数据可视化(下)

一、数据处理与分析实战 (一)实时滤波与参数调整 基础滤波操作 60Hz 工频滤波:勾选界面右侧 “60Hz” 复选框,可有效抑制电网干扰(适用于北美地区,欧洲用户可调整为 50Hz)。 平滑处理&…