AI的发展过程:深度学习中的自然语言处理(NLP);大语言模型(LLM)详解;Transformer 模型结构详解;大模型三要素:T-P-G 原则

AI的发展过程:深度学习中的自然语言处理(NLP);大语言模型(LLM)详解;Transformer 模型结构详解;大模型三要素:T-P-G 原则

  • AI的发展过程与大模型原理详解
    • 一、AI的发展过程
      • 符号主义(Symbolism)
      • 机器学习(Machine Learning)
      • 深度学习(Deep Learning)
    • 二、深度学习中的自然语言处理(NLP)
      • 核心任务包括:
      • NLP 的挑战
    • 三、大语言模型(LLM)详解
      • 模型目标
      • 应用范围
    • 四、Transformer 模型结构详解
      • 背景
      • 模块组成
      • 结构区分
      • 自注意力机制核心公式
      • Transformer 的工作原理
      • Transformer 优势
    • 五、大模型三要素:T-P-G 原则
      • T:神经网络(Transformer)
      • P:预训练(Pre-training)
      • G:生成能力(Generative)
    • 总结:AI 与 LLM 的演进路径

AI的发展过程与大模型原理详解

一、AI的发展过程

人工智能(Artificial Intelligence,简称 AI)是研究如何使计算机模拟人类智能行为的科学。从最初的符号逻辑到如今的大语言模型,AI 经过了几个重要的发展阶段。

符号主义(Symbolism)

符号主义是 AI 最早期的研究范式,兴起于 20 世纪 50-70 年代。它主张通过使用符号(symbol)和规则(rule)来模拟人类推理过程。代表系统如:专家系统(Expert System)、逻辑推理系统(Prolog)。

  • 核心思想:通过人类设定的规则系统处理问题。
  • 典型技术:专家系统(Expert System)
  • 特点:逻辑推理明确,但对未知情况无法泛化。
  • 限制:难以处理非结构化、模糊和变化的数据。

特点:

  • 使用显式规则(if-then)编码知识;
  • 对于结构化知识表现良好;
  • 难以处理模糊、感知类任务(如图像识别、自然语言理解);

机器学习(Machine Learning)

机器学习突破了符号主义“规则写死”的限制,核心思想是让机器“从数据中学习模式”,不再依赖手工规则。

  • 核心思想:利用数据训练模型,使其具备从经验中学习的能力。
  • 代表模型:KNN、SVM、决策树、随机森林等。
  • 特点:相较符号主义更具泛化能力,但依赖特征工程。

主要类型:

  • 监督学习(Supervised Learning):基于标注数据训练,如图像分类、垃圾邮件识别。
  • 无监督学习(Unsupervised Learning):挖掘数据潜在结构,如聚类、降维。
  • 强化学习(Reinforcement Learning):通过奖励信号学习策略,如 AlphaGo。

深度学习(Deep Learning)

深度学习是机器学习的一个子领域,使用“深层神经网络”自动从大量数据中提取特征。2006 年后,随着数据积累和算力提升,深度学习取得了爆发式进展。

  • 核心思想:使用多层神经网络自动提取高阶特征。
  • 关键技术:卷积神经网络(CNN)、循环神经网络(RNN)、Transformer。
  • 优势:能处理复杂模式识别任务,如图像识别、语音识别、自然语言理解。

典型应用:

  • 图像识别(如 CNN)
  • 自动驾驶(感知与决策)
  • 自然语言处理(NLP)

二、深度学习中的自然语言处理(NLP)

自然语言处理(Natural Language Processing,简称 NLP)是研究人与计算机之间使用自然语言(如中文、英文)进行通信的技术,是人工智能中使计算机理解、分析和生成自然语言的技术分支。

核心任务包括:

  • 文本分类:垃圾邮件识别、情感判断。
  • 命名实体识别(NER):识别人名、地名、组织名等。
  • 依存句法分析:分析词语之间的语法关系。
  • 机器翻译:如中英互译系统。
  • 问答系统:如智能客服、搜索问答。
  • 对话生成:如 ChatGPT 聊天系统。

早期 NLP 方法基于统计和特征工程,后逐步转向神经网络,最终发展出 Transformer 架构,彻底变革了 NLP 领域。

NLP 的挑战

  • 多义性:一个词可能有多个含义(如“苹果”是水果或品牌)。
  • 上下文依赖:意义常需结合上下文判断。
  • 长距离依赖:前后语句间可能存在深层语义联系。

三、大语言模型(LLM)详解

大语言模型(Large Language Model)是基于深度神经网络的自然语言处理系统,通常使用数十亿乃至万亿级别的参数对海量文本进行建模。

模型目标

基于已有文本预测下一个最可能出现的 token(词片段)。

示例
输入:“我今天吃了一个”
预测输出:苹果(75%)、橘子(15%)、手机(5%)等

应用范围

  • 文本生成
  • 语言翻译
  • 语义检索与摘要
  • 自动代码补全(如 Copilot)
  • 问答与对话(如 ChatGPT、Claude)

四、Transformer 模型结构详解

背景

Transformer 是 2017 年由 Google 提出的神经网络架构,首次完全抛弃了 RNN(循环神经网络)和 CNN(卷积神经网络),改用“自注意力机制”(Self-Attention)处理序列数据。

模块组成

  1. 输入嵌入(Embedding)
    • 将词语转换为向量表示。
  2. 位置编码(Positional Encoding)
    • 弥补模型缺乏顺序感的缺陷。
  3. 多头自注意力机制(Multi-Head Self-Attention)
    • 每个词关注句中其他所有词,捕捉全局依赖。
  4. 前馈神经网络(Feed Forward)
    • 提取和转换表示向量。
  5. 残差连接与层归一化(Residual + LayerNorm)
    • 加速训练,防止梯度消失。

结构区分

  • Encoder:用于理解输入。
  • Decoder:用于生成输出。
  • GPT 类模型:仅使用 Decoder 架构进行文本生成。

自注意力机制核心公式

对于每个 token,计算:

Attention(Q, K, V) = softmax(QK^T / √d_k) × V

其中:

  • Q(Query)、K(Key)、V(Value)是输入向量的线性变换;
  • softmax 确定注意力权重。

Transformer 的工作原理

  1. 输入嵌入(Embedding):将文本中的每个词转为向量表示。
  2. 位置编码(Positional Encoding):由于 Transformer 无序,需要加上位置信息。
  3. 自注意力机制(Self-Attention):每个词根据整个句子中的其他词计算注意力权重,实现对上下文的理解。
  4. 前馈神经网络(Feed Forward):用于特征提取和非线性变换。
  5. 层叠结构(Stacked Layers):多层编码器-解码器堆叠。
  6. 输出预测(Softmax):根据词向量生成概率分布,输出下一个词。

Transformer 优势

  • 并行计算效率高(相比 RNN)
  • 捕捉长距离依赖效果更好
  • 可扩展性强,适合训练大模型

五、大模型三要素:T-P-G 原则

LLM 实际是由多个核心机制协同工作的结果,主要可归结为 “T-P-G” 三个部分。

T:神经网络(Transformer)

Transformer 是大语言模型的结构核心。它处理自然语言的输入,将其转化为高维向量,并通过多层注意力机制和神经网络提取语义特征,构建对语言的“理解能力”。

P:预训练(Pre-training)

  • 目标:利用大规模语料学习通用语言规律。
  • 方法:遮蔽语言建模(如 BERT)或自回归语言建模(如 GPT)。
  • 成果:形成“通用知识大脑”,具备语言表达、逻辑、常识能力。

LLM 的强大能力来源于对海量通用文本(如百科、新闻、代码等)的预训练。

训练目标通常是:

  • 掌握词法、语法、句法结构;
  • 理解语境中的含义、关系;
  • 预测缺失或下一个词(masked language model 或 causal language model);

训练分为两个阶段:

  1. 预训练(Pre-training)

    • 使用海量通用文本(如维基百科、新闻、社交媒体等)
    • 模型学习语言的基础规律,如语法、词性、上下文
  2. 微调(Fine-tuning)

    • 针对特定任务或领域(如医学、法律)
    • 继续训练模型,以适配具体应用场景

由于预训练的数据多为通用内容,预训练让模型具备了“普通知识”,但不具备“专精能力”,这就需要微调来提升。但在特定领域(如法律、医学)使用前需要微调(Fine-tuning)

G:生成能力(Generative)

  • Token 级预测:一次生成一个 token,不断叠加形成完整文本。
  • 采样策略:贪婪搜索、Top-k、Top-p、温度控制等方法控制生成多样性与连贯性。
  • 注意:生成结果源于概率,不代表事实或逻辑一致性。

生成过程本质是“语言建模”:

  • 给定一段文本上下文(prompt),预测下一个最合适的词(token);
  • 实现方式是:模型输出一个向量,表示每个可能词的概率,选出最可能或最优的一个;
  • 该过程逐个 Token 生成,逐步构建完整文本;

💡 计算机并不理解“文字”,它只处理 Token(分词后映射为整数),最终再将这些整数映射回字符呈现。Token 是语言的最小处理单元:可能是字母、汉字、词根、词缀。模型生成的是 token 序列,而非完整词语或句子。


总结:AI 与 LLM 的演进路径

符号主义 ➝ 机器学习 ➝ 深度学习 ➝ NLP ➝ Transformer ➝ LLM(GPT 等)

大语言模型的发展,是多个领域长期积累与突破的结果。它结合了深度学习、语言建模、注意力机制等多种前沿技术,开启了智能生成与认知计算的新纪元。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/83295.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SDXL 和 SDXL-Turbo 的区别

(1) SDXL(Stable Diffusion XL) 标准扩散模型,基于传统的多步去噪(通常 20~50 步)。 训练充分,特征更稳定,适合用于特征提取、方向学习(如 LoRA、SAE)。 计算成本高&am…

PyTorch:让深度学习像搭积木一样简单!!!

文章目录 🚀 一、 PyTorch的王炸:动态图 vs 静态图静态图的“痛苦回忆”(前方高能吐槽!)PyTorch动态图的降维打击🔥 🔥 二、 不只是灵活!PyTorch的三大杀器1. 张量(Tenso…

LeetCode--27.移除元素

解题思路: 1.获取信息: 给定一个数组和一个值,删除数组中等于这个值的值 要求是,返回数组中不等于这个值的数的数目 并且要求在数组上删除,不能使用额外辅助空间 还是给了评测标准(你可以根据它的原理来实现…

WebRTC(二):工作机制

核心组成 GetUserMedia:获取本地音视频设备(摄像头、麦克风)数据流。RTCPeerConnection:实现点对点的媒体流传输和网络连接管理。RTCDataChannel:点对点的任意数据通道(除音视频外传输数据)。 …

机器学习+城市规划第十五期:时空地理加权回归(STGWR)

机器学习城市规划第十五期:时空地理加权回归(STGWR) 引言 随着城市化进程的加速,城市规划面临越来越多复杂的挑战。在传统的城市规划中,通常会考虑到地理位置的影响,但往往忽略了时间维度。而在现代城市的…

用虚拟机安装macos系统之后进入Boot Manager页面

安装教程:在VMware中安装macos系统教程 在VMware中安装macos系统时启动后进入Boot Manager界面,通常是由于虚拟机的固件类型设置于镜像不兼容所致。 解决办法:虚拟机默认使用UEFI启动模式,但是部分macos镜像需要切换到BIOS模式才…

基于API的Redis缓存实现

1.使用Redis API 进行业务数据缓存管理 编写一个进行业务处理的类ApiCommentService,使用Autowired注解注入Redis API中常用的RedisTemplate(类似于Java基础API中的JdbcTemplate); 然后在数据查询、修改和删除三个方法中,根据业…

前沿论文汇总(机器学习/深度学习/大模型/搜广推/自然语言处理)

文章目录 1 前言2 大模型/自然语言处理2.1 FreeAL:在大模型时代实现无需人工的主动学习2.2 COLD:中文攻击性语言检测基准2.3 将词汇的对比信息融入词嵌入以实现反义词-同义词区分2.4 LogRAG:基于检索增强生成的半监督日志异常检测2.5 RankRAG…

PP-OCRv5 ubuntu20.04 OCR识别服务

目录 说明 使用 效果 下载 说明 PP-OCRv5 ubuntu20.04 OCR识别服务 使用 1、下载后解压 2、进入目录、运行程序 效果 1、浏览器访问 2、接口调用 下载 方式1 源码下载 方式2 通过网盘分享的文件:lw.PP_OCRService.tar.gz 链接: https://pan.baidu.com…

VScode打开后一直显示正在重新激活终端 问题的解决方法

一、问题 本人打开“.py”文件后,同时会出现以下两个问题。 1、VScode一直循环在”正在重新激活终端“ 2、日志显示intellicode报错: Sorry, something went wrong activating IntelliCode support for Python. Please check the “Python” and “VS I…

uniapp 实现腾讯云音视频通话功能

uniapp 深度集成腾讯云音视频通话功能实战指南 一、技术架构解析 腾讯云音视频解决方案采用IM信令控制层TRTC媒体传输层的双架构设计,实现核心能力解耦: #mermaid-svg-DKBpT4CVDkqU1IBw {font-family:"trebuchet ms",verdana,arial,sans-ser…

linux常见问题之截取文件指定行数

linux常见问题之截取文件指定行数 一、命令概述 在处理大文本文件时,我们打开该文件会非常不方便,比如服务器上的日志文件,于是我们常常需要提取特定的行进行分析。Linux 系统中提供了多个强大的命令行工具,可以帮助我们高效地完…

微前端 - Native Federation使用完整示例

这是一个极简化的 Angular 使用angular-architects/native-federation 插件的微前端示例,只包含一个主应用和一个远程应用。 完整示例展示 项目结构 federation-simple/ ├── host-app/ # 主应用 └── remote-app/ # 远程应用 创建远程应用 (remote…

无服务器架构的企业级应用深度解析:Serverless技术选型与成本模型

📋 目录 引言:无服务器架构的兴起无服务器架构核心概念主流Serverless平台技术对比企业级应用场景分析成本模型深度分析私有化部署与云端服务对比决策框架构建最佳实践与建议未来发展趋势结论引言:无服务器架构的兴起 在云计算快速发展的今天,无服务器架构(Serverless)…

内网有猫和无线路由器,如何做端口映射从而实现外网访问

内网猫和无线路由器端口映射配置指南 端口映射(Port Forwarding)是将外网请求引导到内网特定设备和端口的技术,常用于远程访问、搭建服务器等场景。以下是配置方法: 基本原理 猫(调制解调器)&#xff1a…

Spring boot应用监控集成

Spring Boot应用监控集成记录 背景 XScholar文献下载应用基于Spring Boot构建,需要接入Prometheus监控系统。应用已部署并运行在服务器上,需要暴露metrics端点供Prometheus采集。 初始状态 应用信息 框架: Spring Boot 2.x部署端口: 10089服务器: L…

安宝特案例丨又一落地,Vuzix AR眼镜助力亚马逊英国仓库智能化升级!

Vuzix M400智能眼镜近日落地亚马逊(英国)仓库,通过解放双手、免提操作优化物流效率。 安宝特&VuzixAR智能眼镜解决方案为亚马逊仓库提供实时决策支持、无缝对接员工-主管-企业管理系统,并加速了新员工培训流程,优…

ui框架-文件列表展示

ui框架-文件列表展示 介绍 UI框架的文件列表展示组件,可以展示文件夹,支持列表展示和图标展示模式。组件提供了丰富的功能和可配置选项,适用于文件管理、文件上传等场景。 功能特性 支持列表模式和网格模式的切换展示支持文件和文件夹的层…

使用QMediaPlayer开发音乐播放器

编译完成的程序下载:【免费】使用QMediaPlayer开发音乐播放器资源-CSDN文库 完整源码:使用QMediaPlayer开发音乐播放器源码资源-CSDN文库 需求分析: 1.本地音乐播放器 核心播放功能 支持常见音频格式本地播放MP3、WAV、FLAC 等 2.播放控制:播放 / 暂停 / 停止 / 上一曲…

Linux-07 ubuntu 的 chrome 启动不了

文章目录 问题原因解决步骤一、卸载旧版chrome二、重新安装chorme三、启动不了,报错如下四、启动不了,解决如下 总结 问题原因 在应用中可以看到chrome,但是打不开(说明:原来的ubuntu系统出问题了,这个是备用的硬盘&a…