Transformers 学习入门:前置知识补漏

在学习 Transformers 之前,打好神经网络和自然语言处理的基础至关重要。本文整理了需要掌握的核心前置知识,用通俗的例子帮你快速理解复杂概念,为后续学习铺平道路。​

一、神经网络基础​

1. 多层感知机(MLP):信息处理的流水线​

多层感知机可以想象成一条多层级的信息处理流水线。比如我们要判断一个人是否适合某项运动,需要处理年龄、身高、体重等原始数据:​

  • 第一层(输入层):收集原始数据,就像前台接待员汇总信息​
  • 中间层(隐藏层):对数据做初步处理,比如计算 BMI 指数、评估关节负荷等​
  • 最后一层(输出层):综合所有分析,给出 “适合” 或 “不适合” 的结论​

用 PyTorch 实现 MLP 时,核心是定义各层的神经元数量和连接方式:​

import torch.nn as nn​
#简单MLP:输入3个特征→10个中间处理器→1个输出结果​
model = nn.Sequential(​nn.Linear(3, 10),  # 第一层:3→10​nn.ReLU(),         # 激活函数(增加非线性)​nn.Linear(10, 1)   # 输出层:10→1​
)


训练过程就像给流水线 “调试参数”,通过大量数据让模型逐渐学会准确判断。​

2. 反向传播:模型的 “错题订正” 机制​

反向传播是神经网络学习的核心,原理类似我们订正作业的过程:​

  • 当模型预测结果(如 “适合运动”)与实际情况不符时,就像老师批改出了错题​
  • 从输出层往回计算每一层的 “责任”(误差),相当于从错误答案倒推哪一步计算出错​
  • 按比例调整各层参数(权重),让下次预测更准确​

这个过程由 PyTorch 自动完成,我们只需定义损失函数(衡量错误程度),框架会帮我们完成从结果到原因的追溯和修正。​

3. 循环神经网络(RNN)及其变体:处理序列数据的利器​

RNN 专为处理 “序列数据” 设计,比如文本、时间序列等。它的核心特点是:当前的判断会受前面信息的影响。​

普通 RNN:有记忆但会 "忘事"​
就像我们读句子时,前面的内容会影响对后面的理解。例如:​

"他昨天去了公园,____玩得很开心"​

根据前文的 “他”,我们能推断空格处填 "他"​

但普通 RNN 处理长文本时会 “健忘”—— 距离太远的信息会逐渐淡化,就像我们记不住上周三早餐吃了什么。​

LSTM 和 GRU:带 “笔记本” 的 RNN​
为解决健忘问题,LSTM(长短期记忆网络)和 GRU(门控循环单元)应运而生:​

  • 它们相当于给 RNN 加了个 “笔记本”,重要信息(如人名、时间)会被特意记录​
  • 需要时可以随时查阅,避免长序列中的关键信息丢失​

推荐阅读《深度学习入门:基于 Python 的理论与实现》第 8 章,书中用生动的图示解释了 LSTM 的门控机制,比公式推导更容易理解。​

二、词嵌入原理:让计算机 “读懂” 词语​

Word2Vec:给词语拍 "集体照"​

计算机只能处理数字,如何把 “苹果”" 香蕉 " 这样的词语转换成数字呢?

传统方法的局限​
One-hot 编码(独热编码)就像给每个词发唯一身份证:​

  • 每个词是一个超长向量,只有对应位置为 1,其他全为 0​
  • 但 “苹果” 和 “香蕉” 的向量毫无关联,计算机无法知道它们都是水果​

Word2Vec 的创新思路​
Word2Vec 根据词语的 “朋友圈”(上下文)分配数字:​

  • 经常出现在类似语境中的词,向量会更相似(如 “国王” 和 “女王”)​

  • 就像拍集体照时,关系好的人会站得近,通过距离体现亲密程度

用 gensim 库实践时,你会发现有趣现象:​

from gensim.models import Word2Vec​
​
#训练模型(语料为大量文本)​
model = Word2Vec(sentences=corpus, vector_size=100, window=5, min_count=1)​
​
#查看词向量相似度​
print(model.wv.similarity("苹果", "香蕉"))  # 相似度较高​
print(model.wv.similarity("苹果", "汽车"))  # 相似度较低​

这种特性让计算机能理解词语的 “语义关系”,为后续的文本分类、机器翻译等任务奠定基础。​

总结​

学习的多层感知机、反向传播、RNN/LSTM 和 Word2Vec,是理解 Transformers 的重要基石:​

  • MLP 是神经网络的基础结构​
  • 反向传播是模型学习的核心机制
  • RNN 系列揭示了处理序列数据的思路​
  • Word2Vec 解决了词语的数字化难题​

掌握这些知识后,我们就能更轻松地理解 Transformers 的创新点 —— 为什么注意力机制能超越 RNN,成为处理长文本的新宠。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/95723.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/95723.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

双摄工业相机的主要特点和应用场景

双摄工业相机(双目摄像头)在工业领域中的应用非常广泛,其核心优势在于通过双镜头模拟人眼立体视觉,能够获取深度信息并实现高精度三维重建。 一、双摄工业相机的核心优势 深度感知与三维重建 双目摄像头通过两个镜头从不同角度拍…

YOLOv11改进:FocalModulation替换SPPF(精度更高的空间金字塔池化)

YOLOv11:FocalModulation替换SPPF(精度更高的空间金字塔池化) 引言 在目标检测领域,YOLO系列算法以其高效性和准确性广受欢迎。作为YOLO系列的最新成员之一,YOLOv11在多个方面进行了优化和改进。其中,空间金…

LLM与数据工程的融合:衡石Data Agent的语义层与Agent框架设计

在数字经济浪潮中,企业数据智能正经历从"工具辅助"到"智能协同"的范式跃迁。传统BI系统受限于静态报表与预设指标,难以应对动态业务场景的复杂需求。衡石科技发布的HENGSHI SENSE 6.0通过"Data AI Agent"架构创新&#x…

假设一个算术表达式中包含圆括号、方括号和花括号3种类型的括号,编写一个算法来判别,表达式中的括号是否配对,以字符“\0“作为算术表达式的结束符

思想:这道题是栈的应用类型,我们可以建立一个栈来保存(,[,{,通过遍历字符串如果是三个左括号其中一个则入栈,当遇到)]}则出栈配对,如果左右匹配,则遍历下一个元素,如果不匹配直接返回,如果遍历字符串结束&a…

鸿蒙Next的UI国际化与无障碍适老化实践:构建全球包容的数字世界

科技不应让任何人掉队,鸿蒙Next正将这一理念变为现实在全球化日益深入的今天,应用的国际化与无障碍设计不再是"锦上添花",而是不可或缺的核心竞争力。华为鸿蒙Next系统从设计之初就深入考虑了这些需求,为开发者提供了完…

深度学习——迁移学习

迁移学习作为深度学习领域的一项革命性技术,正在重塑我们构建和部署AI模型的方式。本文将带您深入探索迁移学习的核心原理、详细实施步骤以及实际应用中的关键技巧,帮助您全面掌握这一强大工具。迁移学习的本质与价值迁移学习的核心思想是"站在巨人…

RAG|| LangChain || LlamaIndex || RAGflow

大模型:预训练模型 外挂知识库:知识库->向量数据库 输入-》预处理成向量 提示词-》llm归纳总结 离线:企业原文本存到向量数据库 向量: 同一个向量模型(第二代检索,推荐,个人助理,…

mcp_clickhouse代码学习

引言:当ClickHouse遇上MCP 作为一个基于Model Context Protocol(MCP)框架的ClickHouse查询服务器,mcp_clickhouse不仅在技术实现上展现了优雅的设计思路,更在架构层面提供了许多值得借鉴的解决方案。 一、项目概览:架构初探 mcp_clickhouse是一个专为ClickHouse数据库设计…

前端三件套+springboot后端连通尝试

本文承接自跨域请求问题浅解-CSDN博客 后端: //主启动类 SpringBootApplication public class DemoApplication {public static void main(String[] args) {SpringApplication.run(DemoApplication.class, args);}} //控制类 RestController RequestMapping(&quo…

决策树、ID3决策树(信息熵、信息增益)

目录 一、决策树简介 决策树建立过程 二、ID3决策树 核心思想:决策树算法通过计算​​信息增益​​来选择最佳分裂特征 1、信息熵 2、信息熵的计算方法 3、信息增益 4、信息增益的计算(难点) 5、ID3决策树构建案例 三、总结 一、决策树简介 决…

SpringBoot文件下载(多文件以zip形式,单文件格式不变)

SpringBoot文件下载(多文件以zip形式,单文件格式不变)初始化文件服务器(我的是minio)文件下载# 样例# # 单文件# # 多文件初始化文件服务器(我的是minio) private static MinioClient minioClie…

【C++题解】贪心和模拟

4小时编码练习计划,专注于贪心算法和复杂模拟题,旨在锻炼您的算法思维、代码实现能力和耐心。 下午 (4小时): 贪心思维与代码实现力 今天的重点是两种在算法竞赛和工程中都至关重要的能力:贪心选择和复杂逻辑的精确实现。贪心算法考察的是能否…

JS多行文本溢出处理

在网页开发中,多行文本溢出是常见的界面问题。当文本内容超出容器限定的高度和宽度时,若不做处理会破坏页面布局的整洁性,影响用户体验。本文将详细介绍两种主流的多行文本溢出解决方案,并从多个维度进行对比,帮助开发…

C++(Qt)软件调试---bug排查记录(36)

C(Qt)软件调试—bug排查记录(36) 文章目录C(Qt)软件调试---bug排查记录(36)[toc]1 无返回值函数风险2 空指针调用隐患3 Debug/Release差异4 ARM架构char符号问题5 linux下找不到动态库更多精彩内容👉内容导航 &#x1…

人工智能领域、图欧科技、IMYAI智能助手2025年8月更新月报

IMYAI 平台 2025 年 8 月功能更新与模型上新汇总 2025年08月31日 功能更新: 对话与绘画板块现已支持多文件批量上传。用户可通过点击或拖拽方式一次性上传多个图片或文件,操作更加便捷。2025年08月25日近期更新亮点: 文档导出功能增强&#x…

2025独立站技术风向:无头电商+PWA架构实战指南

根据 Gitnux 的统计数据,预计到 2025 年,北美将有 60% 的大型零售商采用无头平台。而仍在传统架构上运营的独立站,平均页面加载速度落后1.8秒,转化率低32%。无独有偶,Magento Association 的一项调查显示,7…

淘宝京东拼多多爬虫实战:反爬对抗、避坑技巧与数据安全要点

一、先搞懂:电商爬虫的 3 大核心挑战(比普通爬虫更复杂的原因) 做电商爬虫前,必须先明确「为什么难」—— 淘宝、京东、拼多多的反爬体系是「多层级、动态化、行为导向」的,绝非简单的 UA 验证或 IP 封禁:…

【1】MOS管的结构及其工作原理

以nmos举例,mos管由三个电极:G极(gate)、D极(drain)、S极(source)和一个衬底组成,而这三个电极之间通过绝缘层相隔开;①既然GDS三个电极之间两两相互绝缘&…

如何保存训练的最优模型和使用最优模型文件

一 保存最优模型主要就是我们在for循环中加上一个test测试,并且我还在test函数后面加上了返回值,可以返回准确率,然后每次进行一次对比,然后取大的。然后这里有两种保存方式,一种是保存了整个模型,另一个是…

vue3+ts+echarts多Y轴折线图

因为放在了子组件才监听&#xff0c;加载渲染调用&#xff0c;有暗黑模式才调用&#xff0c;<!-- 温湿度传感器 --><el-row v-if"deviceTypeId 2"><el-col :xs"24" :sm"24" :md"24" :lg"24" :xl"24&qu…