4.大语言模型预备数学知识

大语言模型预备数学知识

复习一下在大语言模型中用到的矩阵和向量的运算,及概率统计和神经网络中常用概念。

矩阵的运算

矩阵

在这里插入图片描述

矩阵加减法

条件:行数列数相同的矩阵才能做矩阵加减法

在这里插入图片描述

数值与矩阵的乘除法

在这里插入图片描述
在这里插入图片描述

矩阵乘法

条件:矩阵A的列数 = 矩阵B的行数时, A才能乘B

因为矩阵乘法是前一个矩阵各行中各个元素乘后一个矩阵各列中对于元素,所以要求矩阵A的列数 = 矩阵B的行数。

在这里插入图片描述

矩阵乘法性质

在这里插入图片描述

矩阵的转置

转置:矩阵所有的行按顺序变成列

在这里插入图片描述

转置的性质

在这里插入图片描述

向量的运算

向量

本博客后续,默认用行向量来表示默认向量

在这里插入图片描述

向量的几何意义

起点在坐标原点,终点在坐标数值的向量

在这里插入图片描述

向量的加减法

条件:向量a,b的元素的个数相同

在这里插入图片描述

向量加法,以零点为起点,以b’终点为终点的向量(b’的起点为a的终点)。减法就相当于 加 负向量

在这里插入图片描述

数值与向量的乘除法

a向量乘2,表示对a向量伸长了两倍。

在这里插入图片描述

向量的乘法

向量乘法是向量的点积运算,又称内积

点积:行向量乘列向量,结果为标量

在这里插入图片描述

点积点几何含义(常用)

反映了两个向量相似程度,当两个向量方向一致时,夹角为0,cos夹角 = 1,两向量长度不变则此时两向量的点积最大,表示两向量此时最相似。

但点积的大小也跟向量a,b的长度有关,所以可以进行归一化,即分别对每个向量除各自的长度(模),称为余弦相似度。(归一化了,就跟具体的向量长度没关系了,其值完全反映两个向量的相似性)
在这里插入图片描述

矩阵和向量的乘法

向量(指行向量)右乘矩阵(矩阵在右边),条件:矩阵行数与向量元素个数相等。相乘结果为一个行向量,其元素个数为矩阵的列数。

在这里插入图片描述

向量(指列向量)左乘矩阵(矩阵在左边),条件:矩阵列数与向量元素个数相等。相乘结果为一个列向量,其元素个数为矩阵的行数。

在这里插入图片描述

矩阵和向量的乘法的几何意义

向量右乘矩阵的几何意义

  • 相似性角度

在这里插入图片描述

  • 空间变换角度,表示对向量的旋转操作
    在这里插入图片描述

在这里插入图片描述

a在新坐标系中的坐标

概率

数学期望与方差

在这里插入图片描述

数学期望:离散型随机变量每个可能的取值,与该取值对应的概率相乘,统一相加的结果,反映取值的平均值

在这里插入图片描述

在这里插入图片描述

蒙特卡洛方法(通过采样的方法)

即计算数学期望值的时候,通过采样计算平均值的方式去近似(蒙特卡洛方法)。

为什么?因为我们不知道每种概率是多少,就通过采样的办法去近似,当采样数量足够多时,采样平均值就可被认为数学期望。

在这里插入图片描述

在这里插入图片描述

数学期望的性质

在这里插入图片描述

在这里插入图片描述

最后一条性质指,随机变量x,任何可能都>=0,则数学期望>=0

方差

在这里插入图片描述

在这里插入图片描述

计算方差的过程

如何理解评价值除n,方差除n-1。因为前面求平均值时除n,知道了n个数中n-1个就可以把第n个算出来,它们之间有一定相关性。除n-1得到的才是无偏估计。

在这里插入图片描述

举例

在这里插入图片描述

方差的性质

在这里插入图片描述

马尔可夫过程

马尔可夫过程是一个随机过程,且未来的发展只与当前状态有关,而跟之前的状态无关。一般来说都是一种近似的结果,通过近似来简化计算。

一般的随机过程

X(t)的取值称为随机过程在时间t的状态

在这里插入图片描述

马尔可夫过程

在这里插入图片描述

神经网络与深度学习

梯度下降

方向:如果斜率(导数)>0,则x减;如果斜率(导数)<0,则x加(即修改的方向跟导数的方向相反)

大小:离最低点(最优值)远时,比较陡(导数绝对值越大越陡)—导数绝对值越大,修改量越大

在这里插入图片描述

震荡问题,因为导数趋于∞时,会导致震荡, 引入一个大于0的常量步长,防止震荡很大,使其一步步过来。

在这里插入图片描述

在神经网络中因为参数量很大所以用偏导数

在这里插入图片描述

导数反映某一处切线斜率,梯度表示在曲线中的某个切平面的斜率。梯度下降核心思想:沿着梯度的反方向,看那个地方下降最快,沿最陡峭地方往下走,一点点找到最优值。

在这里插入图片描述

常见梯度下降算法

在这里插入图片描述


欢迎各位读者点赞评论收藏,本人后续也会对这块基础数学知识进行进一步更新

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/82740.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp 设置手机不息屏

在使用 UniApp 开发应用时&#xff0c;有时需要在设备长时间未操作时实现息屏保护功能&#xff0c;以节省电量和保护屏幕。以下是如何在 UniApp 中实现这一功能的步骤。 示例一 // 保持屏幕常亮 uni.setKeepScreenOn({keepScreenOn: true });// 监听应用进入后台事件 uni.onH…

智能推荐系统:协同过滤与深度学习结合

智能推荐系统&#xff1a;协同过滤与深度学习结合 系统化学习人工智能网站&#xff08;收藏&#xff09;&#xff1a;https://www.captainbed.cn/flu 文章目录 智能推荐系统&#xff1a;协同过滤与深度学习结合摘要引言技术原理对比1. 协同过滤算法&#xff1a;基于相似性的推…

使用Python和OpenCV实现图像识别与目标检测

在计算机视觉领域&#xff0c;图像识别和目标检测是两个非常重要的任务。图像识别是指识别图像中的内容&#xff0c;例如判断一张图片中是否包含某个特定物体&#xff1b;目标检测则是在图像中定位并识别多个物体的位置和类别。OpenCV是一个功能强大的开源计算机视觉库&#xf…

《基于Apache Flink的流处理》笔记

思维导图 1-3 章 4-7章 8-11 章 参考资料 源码&#xff1a; https://github.com/streaming-with-flink 博客 https://flink.apache.org/bloghttps://www.ververica.com/blog 聚会及会议 https://flink-forward.orghttps://www.meetup.com/topics/apache-flink https://n…

LLaMA-Factory 微调 Qwen2-VL 进行人脸情感识别(二)

在上一篇文章中,我们详细介绍了如何使用LLaMA-Factory框架对Qwen2-VL大模型进行微调,以实现人脸情感识别的功能。本篇文章将聚焦于微调完成后,如何调用这个模型进行人脸情感识别的具体代码实现,包括详细的步骤和注释。 模型调用步骤 环境准备:确保安装了必要的Python库。…

Splash动态渲染技术全解析:从基础到企业级应用(2025最新版)

引言 在Web 3.0时代&#xff0c;87%的网站采用JavaScript动态渲染技术。传统爬虫难以应对Ajax加载、SPA应用等场景&#xff0c;Splash作为专业的JavaScript渲染服务&#xff0c;凭借​​Lua脚本控制​​和​​异步处理能力​​&#xff0c;已成为动态数据抓取的核心工具。本文…

【应用】Ghost Dance:利用惯性动捕构建虚拟舞伴

Ghost Dance是葡萄牙大学的一个研究项目&#xff0c;研究方向是探索人与人之间的联系&#xff0c;以及如何通过虚拟舞伴重现这种联系。项目负责人Cecilia和Rui利用惯性动捕创造出具有流畅动作的虚拟舞伴&#xff0c;让现实中的舞者也能与之共舞。 挑战&#xff1a;Ghost Danc…

广目软件GM DC Monitor

广目&#xff08;北京&#xff09;软件有限公司成立于2024年&#xff0c;技术和研发团队均来自于一家具有近10年监控系统研发的企业。广目的技术团队一共实施了9家政府单位、1家股份制银行、1家芯片制造企业的数据中心监控预警项目。这11家政企单位由2家正部级、1家副部级、6家…

12-Oracle 23ai Vector 使用ONNX模型生成向量嵌入

一、Oracle 23ai Vector Embeddings 核心概念​ 向量嵌入&#xff08;Vector Embeddings&#xff09;​​ -- 将非结构化数据&#xff08;文本/图像&#xff09;转换为数值向量 - - 捕获数据的语义含义而非原始内容 - 示例&#xff1a;"数据库" → [0.24, -0.78, 0.5…

用 NGINX 构建高效 POP3 代理`ngx_mail_pop3_module`

一、模块定位与作用 协议代理 ngx_mail_pop3_module 让 NGINX 能够充当 POP3 代理&#xff1a;客户端与后端 POP3 服务器之间的所有请求均转发到 NGINX&#xff0c;由 NGINX 负责与后端会话逻辑。认证方式控制 通过 pop3_auth 指令指定允许客户端使用的 POP3 认证方法&#xf…

每日算法 -【Swift 算法】三数之和

Swift&#xff5c;三数之和&#xff08;3Sum&#xff09;详细题解 注释 拓展&#xff08;LeetCode 15&#xff09; ✨题目描述 给你一个包含 n 个整数的数组 nums&#xff0c;判断 nums 中是否存在三个元素 a, b, c&#xff0c;使得 a b c 0。请你找出所有和为 0 且不重…

服务器磁盘空间被Docker容器日志占满处理方法

事发场景&#xff1a; 原本正常的服务停止运行了&#xff0c;查看时MQTT服务链接失败&#xff0c;查看对应的容器服务发现是EMQX镜像停止运行了&#xff0c;重启也是也报错无法正常运行&#xff0c;报错如下图&#xff1a; 报错日志中连续出现两个"no space left on devi…

令牌桶 滑动窗口->限流 分布式信号量->限并发的原理 lua脚本分析介绍

文章目录 前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结&#xff1a; 滑动窗口代码实现结果分析lua脚本原理解析 限并发分布式信号量代码实现结果分析lua脚本实现原理 双注解去实现限流 并发结果分析&#xff1a; 实际业务去理解体会统一注…

基于uniapp+WebSocket实现聊天对话、消息监听、消息推送、聊天室等功能,多端兼容

基于 ​UniApp + WebSocket​实现多端兼容的实时通讯系统,涵盖WebSocket连接建立、消息收发机制、多端兼容性配置、消息实时监听等功能,适配​微信小程序、H5、Android、iOS等终端 目录 技术选型分析WebSocket协议优势UniApp跨平台特性WebSocket 基础实现连接管理消息收发连接…

Linux中shell编程表达式和数组讲解

一、表达式 1.1 测试表达式 样式1: test 条件表达式 样式2: [ 条件表达式 ] 注意&#xff1a;以上两种方法的作用完全一样&#xff0c;后者为常用。但后者需要注意方括号[、]与条件表达式之间至少有一个空格。test跟 [] 的意思一样条件成立&#xff0c;状态返回值是0条件不成…

深入了解JavaScript当中如何确定值的类型

JavaScript是一种弱类型语言&#xff0c;当你给一个变量赋了一个值&#xff0c;该值是什么类型的&#xff0c;那么该变量就是什么类型的&#xff0c;并且你还可以给一个变量赋多种类型的值&#xff0c;也不会报错&#xff0c;这就是JavaScript的内部机制所决定的&#xff0c;那…

【p2p、分布式,区块链笔记 MESH】Bluetooth蓝牙通信拓扑与操作 BR/EDR(经典蓝牙)和 BLE

目录 1. BR/EDR&#xff08;经典蓝牙&#xff09;网络结构微微网&#xff08;Piconet&#xff09;散射网&#xff08;Scatternet&#xff09;蓝牙 BR/EDR 拓扑结构示意图 2. BLE&#xff08;低功耗蓝牙&#xff09;网络结构广播器与观察者&#xff08;Broadcaster and Observer…

C++虚函数表(虚表Virtual Table,简称vtable、VFT)(编译器为支持运行时多态(动态绑定)而自动生成的一种内部数据结构)虚函数指针vptr

文章目录 **1. 虚函数表的核心概念**- **虚函数表&#xff08;vtable&#xff09;**&#xff1a;- **虚函数指针&#xff08;vptr&#xff09;**&#xff1a; **2. 虚函数表的生成与工作流程****生成时机**- **当一个类中至少有一个虚函数时**&#xff0c;编译器会为该类生成一…

使用Python和TensorFlow实现图像分类

最近研学过程中发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的…

Unity UI 性能优化--Sprite 篇

&#x1f3af; Unity UI 性能优化终极指南 — Sprite篇 &#x1f9e9; Sprite 是什么&#xff1f;—— 渲染的基石与性能的源头 在Unity的2D渲染管线中&#xff0c;Sprite 扮演着至关重要的角色。它不仅仅是2D图像资源本身&#xff0c;更是GPU进行渲染批处理&#xff08;Batch…