大模型的底层运算线性代数

深度学习的本质是用数学语言描述并处理真实世界中的信息,而线性代数正是这门语言的基石。它不仅提供了高效的数值计算工具,更在根本上定义了如何以可计算、可组合、可度量的方式表示和变换数据。

1 如何描述世界

在这里插入图片描述

📊 真实世界的数据(图片、语音、文本)分布在在一个像“地毯”一样弯曲的表面上。你从入口出发,沿着地毯走到终点(比如从一张图片走到“猫”这个标签)。你的路线可能经过很多弯曲的部分,每段直线对应着矩阵乘法(线性变换),每个拐弯对应着非线性激活切换。这样一路走下去,你就完成了一次从输入到输出的旅程,这个过程在神经网络里就是推理。

深入思考
如果世界仅由数字构成,我们如何唯一地描述一幅图像、一段语音,或一次梯度更新?答案必须同时满足:可计算、可组合、可度量。这逼迫我们寻找能被算术闭包、向量空间运算、范数度量共同支持的载体:张量。在线性代数中,向量与矩阵便是这种载体的最简形态。深度学习把世界的结构落在三件事上:可计算(能被有限步算子执行)、可组合(小模块可堆叠)、可度量(相似/距离可定义)。能同时满足三者并与现代硬件高效耦合的,正是向量空间与线性映射。

📊 如果世界仅由数字构成,我们如何唯一地描述一幅图像、一段语音,或一次梯度更新?答案必须同时满足:可计算、可组合、可度量。这逼迫我们寻找能被算术闭包、向量空间运算、范数度量共同支持的载体:张量。深度学习把世界的结构落在三件事上:可计算(能被有限步算子执行)、可组合(小模块可堆叠)、可度量(相似/距离可定义)

2 基础元素-标量

标量:度量世界的起点,只含大小

标量是一维空间中的基本元素,只拥有大小而无方向。例如温度、学习率等均是标量。

  • 记号:普通小写 xxx,定义域 x∈Rx \in \mathbb{R}xR
  • 代码示例:torch.tensor(3.0)

标量在深度学习中通常用作超参数或单一输出(如分类概率),为更高阶的数据表示提供度量基准。

3 基础元素-向量

向量:信息的紧凑表达,有方向与幅值

向量通过有序的标量集合形成,拥有大小与方向,能高效地描述多维状态。

  • 记号:粗体小写 x,维度为 nnn,即 x ∈ ℝⁿ
  • 实践用途:用户画像、一帧心电图、词嵌入等
  • 代码示例:torch.arange(4)tensor([0,1,2,3])

向量通过维度的长度直观表示信息量,成为深度学习模型输入特征的基本单位。

4 基础元素-矩阵

矩阵:批量运算的万能载体,向量的有序集合

矩阵是一组向量的集合,以二维表格形式表达数据。

  • 记号:粗体大写 A ∈ ℝ^{m×n},其中行代表样本,列代表特征。

  • 常用操作:转置 ATA^TAT、索引 A[i,j]A[i,j]A[i,j]、对称性检查 A=ATA = A^TA=AT

  • 代码示例:权重矩阵的批量处理

矩阵实现了数据批量处理,让深度学习模型高效利用 GPU 并行计算能力。

5 基础元素-张量

张量:多维数据的统一表达

张量是矩阵概念的自然延伸,能表示任意维度的数据结构。

  • 举例:3D 图像 (C,H,W),视频 (T,C,H,W)
  • 代码示例:torch.arange(24).reshape(2,3,4)

张量在深度学习框架中具有一等地位,支持广播、切片、视图变换等操作,让数据与算法自然融合。

6 核心运算-Hadamard积

Hadamard 积:特征的高效交互

Hadamard 积指两个同形状张量逐元素相乘,捕捉特征间的局部交互。

  • 记号:A⊙BA \odot BAB
  • GPU 并行高效实现:A * B
  • 实践示例:在推荐系统中,用户向量与物品向量逐元素相乘,以快速捕捉用户偏好。

7 核心运算-降维

降维:聚焦重要信息

降维技术通过沿某一轴汇总(如求和或平均)来减少数据冗余,突出关键信息。

  • 常见操作:A.sum(axis=0)meancumsum
  • 实践示例:卷积神经网络中的全局平均池化,压缩图像特征。

8 核心运算-点积

点积:相似度度量之基石

向量点积通过累加逐元素乘积来量化向量间的相似性。

  • 公式:x⋅y=∑xiyix \cdot y = \sum x_i y_ixy=xiyi
  • 应用实例:注意力机制、Word2Vec、余弦相似度
  • 代码示例:torch.dot(x,y)
  • 实践示例:在搜索引擎中,利用余弦相似度衡量文档与查询词的相关性。

9 核心运算-矩阵向量乘法

矩阵-向量乘法:快速线性变换

矩阵-向量乘积(Ax)实现了高效的线性变换。

  • 代码示例:torch.mv(A,x)
  • 实践示例:神经网络全连接层将输入特征映射到隐藏层。

10 核心运算-矩阵矩阵乘法

矩阵-矩阵乘法:批量线性映射

矩阵-矩阵乘法(AB)可视作一系列矩阵-向量乘法的集合。

  • 形状要求:A(n×k)⋅B(k×m)=C(n×m)A(n \times k) \cdot B(k \times m) = C(n \times m)A(n×k)B(k×m)=C(n×m)
  • 代码示例:torch.mm(A,B)
  • 实践示例:Transformer 模型中多头注意力机制的批量计算。

11 核心运算-高维张量运算

在实际神经网络中,我们往往需要对多个矩阵进行批量乘法,例如:

A = torch.randn(3, 3, 2) # 3个[3x2]矩阵
B = torch.randn(3, 2, 4) # 3个[2x4]矩阵
C = torch.matmul(A, B) # -> C.shape = [3, 3, 4]

每组进行 [3,2] × [2,4] 的矩阵乘法,最终得到 3 个 [3,4] 的矩阵,结果为 [3, 3, 4]

仅最后两维按矩阵乘法计算:[…, m, k] @ […, k, n] -> […, m, n]。其余前缀维度 广播对齐。

12 广播机制

从右向左对齐维度,两个维度相等,或其中一个为 1,才允许广播。常见广播是用于加偏置(行向量/列向量)。

a = torch.empty(3, 3, 2)
b = torch.empty(2, 4)
result = a @ b # 自动广播为 [3, 3, 4]

  • a.shape = [3, 3, 2]
  • b.shape = [2, 4] → 自动变成 [1, 2, 4] → 广播成 [3, 2, 4]
  • 执行 [3,3,2] @ [3,2,4] = [3,3,4]

13 核心运算-范数

范数:度量数据差异的标尺

范数为向量提供了量身定制的度量工具,直观表示向量的大小和稀疏性。

  • L2 范数 ∥x∥2\|x\|_2x2:欧式距离与正则化。

  • L1 范数 ∥x∥1\|x\|_1x1:强调稀疏性,对异常数据更鲁棒。

  • 实践示例:L2 正则化在神经网络训练中防止过拟合。

综上,线性代数以向量、矩阵、张量等核心概念为工具,深刻且全面地支撑了深度学习从数据表达到模型训练的全过程,成为了所有AI技术发展的根本语言与方法论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/93705.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/93705.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Rust 中 i32 与 *i32 的深度解析

Rust 中 &i32 与 *i32 的深度解析 在 Rust 中,&i32 和 *i32 是两种完全不同的指针类型,它们在安全性、所有权和使用方式上有本质区别。以下是详细对比: 核心区别概览 #mermaid-svg-rCa8lLmHB7MK9P6K {font-family:"trebuchet ms…

【PyTorch项目实战】OpenNMT本地机器翻译框架 —— 支持本地部署和自定义训练

文章目录一、OpenNMT(Neural Machine Translation,NMT)1. 概述2. 核心特性3. 系统架构4. 与其他翻译工具的区别二、基于 OpenNMT-py 的机器翻译框架1. 环境配置(以OpenNMT-py版本为例)(1)pip安装…

基于prompt的生物信息学:多组学分析的新界面

以前总以为综述/评论是假大空,最近在朋友的影响下才发现,大佬的综述/评论内容的确很值得一读,也值得分享的。比如这篇讲我比较感兴趣的AI辅助生信分析的,相信大家都是已经实践中用上了,看看大佬的评论,拓宽…

Nacos-8--分析一下nacos中的AP和CP模式

Nacos支持两种模式来满足不同场景下的需求:AP模式(强调可用性)和CP模式(强调一致性)。 这两种模式的选择主要基于CAP理论,该理论指出在一个分布式系统中,无法同时保证一致性(Consist…

水闸安全监测的主要核心内容

水闸安全监测是指通过一系列技术手段和管理措施,对水闸的结构状态、运行性能及环境条件进行实时或定期的观测与评估,以确保水闸在设计寿命期内的安全性和可靠性。其核心目标是及时发现潜在的安全隐患,防止事故发生,保障水利工程的…

嵌入式系统学习Day19(数据结构)

数据结构的概念: 相互之间存在一种或多种特定关系的数据元素的集合。数据之间关系:逻辑关系:集合,线性(1对1,中间位置的值有且仅有一个前驱,一个后继),树(1对…

Pandas中数据清理、连接数据以及合并多个数据集的方法

一、简介1.数据清理的重要性:在进行数据分析前,需进行数据清理,使每个观测值成一行、每个变量成一列、每种观测单元构成一张表格。2.数据组合的必要性:数据整理好后,可能需要将多张表格组合才能进行某些分析&#xff0…

JavaSSM框架从入门到精通!第二天(MyBatis(一))!

一、 Mybatis 框架1. Mybatis 框架简介Mybatis 是 apache 的一个开源项目,名叫 iBatis ,2010 年这个项目由 apache 迁移到了 google,并命名为 Mybatis,2013 年迁移到了 GitHub,可以在 GitHub 下载源码。2. Mybatis 的下…

Linux下Mysql命令,创建mysql,删除mysql

在 Linux 系统下,您可以通过命令行来创建和删除 MySQL 数据库。以下是详细的操作步骤,包括创建和删除数据库、用户,以及常见的相关管理命令。1. 登录 MySQL在执行任何 MySQL 操作之前,需要先登录 MySQL。1.1 使用 root 用户登录 M…

假设检验的原理

假设检验是统计学中用于判断样本数据是否支持某个特定假设的方法。其核心思想是通过样本数据对总体参数或分布提出假设,并利用统计量来判断这些假设的合理性。假设检验的基本步骤如下:1. 假设(Hypothesis)在统计学中,假…

信号、内存共享等实现

信号&#xff08;signal&#xff09;#include <signal.h> #include <stdio.h> #include <unistd.h>void handler(int sig) {printf("收到信号: %d\n", sig); }int main() {signal(SIGUSR1, handler); // 注册用户自定义信号printf("进程 PI…

《从日常到前沿:AI 在教育、医疗、制造业的真实落地案例》文章提纲

引言&#xff1a;AI 落地的多元图景​简述 AI 从实验室走向实际应用的发展趋势​说明选择教育、医疗、制造业的原因 —— 覆盖民生与基础产业&#xff0c;落地场景具有代表性​AI 在教育领域的落地案例​个性化学习&#xff1a;如某在线教育平台利用 AI 分析学生学习数据&#…

决策树(1)

一、树模型与决策树基础决策树概念&#xff1a;从根节点开始一步步走到叶子节点得出决策&#xff0c;所有数据最终都会落到叶子节点&#xff0c;既可用于分类&#xff0c;也可用于回归。树的组成根节点&#xff1a;第一个选择点。非叶子节点与分支&#xff1a;中间决策过程。叶…

电视系统:开启视听新时代

在当今数字化浪潮席卷的时代&#xff0c;电视领域正经历着一场深刻的变革&#xff0c;而电视系统无疑是这场变革中的耀眼明星。简单来讲&#xff0c;电视系统就是互联网协议电视&#xff0c;它宛如一座桥梁&#xff0c;巧妙地利用宽带有线电视网&#xff0c;将多媒体、互联网、…

字节开源了一款具备长期记忆能力的多模态智能体:M3-Agent

猫头虎AI分享&#xff5c;字节开源了一款具备长期记忆能力的多模态智能体&#xff1a;M3-Agent 近年来&#xff0c;多模态大模型的发展迅猛&#xff0c;但如何赋予智能体类似人类的长期记忆能力&#xff0c;一直是研究中的核心挑战。字节跳动开源的 M3-Agent&#xff0c;正是面…

第十六届蓝桥杯青少组C++省赛[2025.8.10]第二部分编程题(6、魔术扑克牌排列)

参考程序&#xff1a;#include<bits/stdc.h> using namespace std; long long dp[105]; long long c(int n) {dp[0] 1;for(int i1; i< n; i){for(int j0; j<i; j){dp[i] dp[j] * dp[i -1-j];}}return dp[n]; } int main() {int n;cin >> n;cout <<c(n…

【实时Linux实战系列】实时平台下的图像识别技术

在当今数字化时代&#xff0c;图像识别技术已经广泛应用于各个领域&#xff0c;如自动驾驶、安防监控、智能医疗等。它通过计算机对图像进行分析和处理&#xff0c;从而实现对物体、场景或人的识别。实时Linux作为一种高效的实时操作系统&#xff0c;为图像识别技术提供了强大的…

IPD流程执行检查表

IPD流程执行检查表 稽查

Jmeter的安装与使用教程

基于jdk1.8版本的Jmeter的下载与安装和使用教程。 一.安装jmeter 官网下载就行下载压缩包解压就行 Jmeter下载官网&#xff1a;http://jmeter.apache.org/download_jmeter.cgi找到安装包的下载位置&#xff0c;解压进入文件夹的bin文件夹下jmeter.bat。二.配置环境变量 1、“此…

docker 数据卷、自定义镜像操作演示分享(第二期)

数据卷1.1、背景前面有个docker go web demo应用示例&#xff0c;每次为了部署go_web_demo工程&#xff0c; 需要将使用到的cp的命令将宿主主机内的go_web_demo目录下的代码文件&#xff08;一般是编译后的二进制执行文件&#xff09;复制到容器内部。 数据卷&#xff1a;将宿主…