机器学习的数学基础:线性模型

线性模型

线性模型的基本形式为:

f ( x ) = ω T x + b f\left(\boldsymbol{x}\right)=\boldsymbol{\omega}^\text{T}\boldsymbol{x}+b f(x)=ωTx+b

回归问题

利用最小二乘法,得到 ω \boldsymbol{\omega} ω b b b的参数估计$
\boldsymbol{\hat{\omega}}=\left(\boldsymbol{\omega};b\right)$:

ω ^ ∗ = arg min ⁡ ω ^ ( y − X ω ^ ) T ( y − X ω ^ ) \boldsymbol{\hat{\omega}}^*=\underset{\boldsymbol{\hat{\omega}}}{\text{arg}\min}\left(\boldsymbol{y-X\hat{\omega}}\right)^{\text{T}}\left(\boldsymbol{y-X\hat{\omega}}\right) ω^=ω^argmin(yXω^)T(yXω^)

其中:

X = ( x 1 T 1 x 2 T 1 ⋮ ⋮ x m T 1 ) \boldsymbol{X}=\begin{pmatrix} \boldsymbol{x_1^\text{T}} & 1\\ \boldsymbol{x_2^\text{T}} & 1\\ \vdots & \vdots\\ \boldsymbol{x_m^\text{T}}&1 \end{pmatrix} X= x1Tx2TxmT111

由于在现实任务中 X T X \boldsymbol{X}^{\text{T}}\boldsymbol{X} XTX不一定为正定矩阵或者满秩矩阵,导致参数估计的不唯一,所以有时候需要引入正则项进行选取解。

广义线性模型

对于单调可微函数 g g g,令:

y = g − 1 ( ω T x + b ) y=g^{-1}(\boldsymbol{\omega}^\text{T}\boldsymbol{x}+b) y=g1(ωTx+b)

称为广义线性模型

二分类

对数几率回归与极大似然估计

对于二分类问题,其目标为: y ∈ { 0 , 1 } y\in\{0,1\} y{0,1},由于理想的单位跃阶函数不连续,这里引入对数几率函数(logistic function):

y = 1 1 + e − z y=\frac{1}{1+e^{-z}} y=1+ez1

带入广义线性模型:

ln ⁡ y 1 − y = ω T x + b \ln\frac{y}{1-y}=\boldsymbol{\omega}^\text{T}\boldsymbol{x}+b ln1yy=ωTx+b

其中,称 y 1 − y \frac{y}{1-y} 1yy为"几率"。

对参数估计,使用极大似然估计:

L = max ⁡ ∑ i = 1 m ln ⁡ p ( y i ∣ x i ; ω , b ) \mathcal{L}=\max \sum_{i=1}^{m}\ln p\left(y_i|\boldsymbol{x}_i;\boldsymbol{\omega},b\right) L=maxi=1mlnp(yixi;ω,b)

其中,

p ( 1 ∣ x i ; ω , b ) = ω T x + b 1 + e − ( ω T x + b ) p\left(1|\boldsymbol{x}_i;\boldsymbol{\omega},b\right)=\frac{\boldsymbol{\omega}^\text{T}\boldsymbol{x}+b}{1+e^{-(\boldsymbol{\omega}^\text{T}\boldsymbol{x}+b)}} p(1∣xi;ω,b)=1+e(ωTx+b)ωTx+b

该式可以由经典的凸优化算法求得。

LDA

线性判别分析(Linear Discriminant Analysis)是一个朴素的分类方法:

通过投影将高维数据映射到低维空间,使得同类样本的投影尽可能紧凑、不同类样本的投影尽可能分离,从而实现分类。

给定二分类数据集 D = { ( x i , y i ) } i = 1 m D = \{(\boldsymbol{x}_i, y_i)\}_{i=1}^m D={(xi,yi)}i=1m, y i ∈ { 0 , 1 } y_i \in \{0,1\} yi{0,1},定义:

  • X i X_i Xi:第 i ∈ { 0 , 1 } i \in \{0,1\} i{0,1} 类样本的集合
  • μ i \boldsymbol{\mu}_i μi:第 i i i类样本的均值向量
  • Σ i \boldsymbol{\Sigma}_i Σi:第 i i i类样本的协方差矩阵

若将数据投影到直线 w \boldsymbol{w} w 上,两类样本中心的投影为 $ \boldsymbol{w}\mathrm{T}\boldsymbol{\mu}_0$、$\boldsymbol{w}\mathrm{T}\boldsymbol{\mu}_1 ,协方差投影为 ,协方差投影为 ,协方差投影为\boldsymbol{w}\mathrm{T}\boldsymbol{\Sigma}_0\boldsymbol{w}$、$\boldsymbol{w}\mathrm{T}\boldsymbol{\Sigma}_1\boldsymbol{w}$(均为实数,因投影到一维空间 )。

得到构造的最优化函数:

max ⁡ J = max ⁡ ∥ w T μ 0 − w T μ 1 ∥ 2 2 w T Σ 0 w + w T Σ 1 w \max \mathcal{J}= \max \frac{\|\boldsymbol{w}^\mathrm{T}\boldsymbol{\mu}_0 - \boldsymbol{w}^\mathrm{T}\boldsymbol{\mu}_1\|_2^2}{\boldsymbol{w}^\mathrm{T}\boldsymbol{\Sigma}_0\boldsymbol{w} + \boldsymbol{w}^\mathrm{T}\boldsymbol{\Sigma}_1\boldsymbol{w}} maxJ=maxwTΣ0w+wTΣ1wwTμ0wTμ122

为了简化表达,引入散度矩阵

  • 类内散度矩阵 S w \mathbf{S}_w Sw):
    整合两类协方差信息,反映同类样本的离散程度:
    S w = Σ 0 + Σ 1 = ∑ x ∈ X 0 ( x − μ 0 ) ( x − μ 0 ) T + ∑ x ∈ X 1 ( x − μ 1 ) ( x − μ 1 ) T \mathbf{S}_w = \boldsymbol{\Sigma}_0 + \boldsymbol{\Sigma}_1 = \sum_{\boldsymbol{x} \in X_0} (\boldsymbol{x} - \boldsymbol{\mu}_0)(\boldsymbol{x} - \boldsymbol{\mu}_0)^\mathrm{T} + \sum_{\boldsymbol{x} \in X_1} (\boldsymbol{x} - \boldsymbol{\mu}_1)(\boldsymbol{x} - \boldsymbol{\mu}_1)^\mathrm{T} Sw=Σ0+Σ1=xX0(xμ0)(xμ0)T+xX1(xμ1)(xμ1)T

  • 类间散度矩阵 S b \mathbf{S}_b Sb):
    反映两类中心的离散程度,仅与均值向量有关:
    S b = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T \mathbf{S}_b = (\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1)(\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1)^\mathrm{T} Sb=(μ0μ1)(μ0μ1)T

代入目标函数后, J \mathcal{J} J 可重写为“广义瑞利商”(generalized Rayleigh quotient):

J = w T S b w w T S w w \mathcal{J}=\frac{\boldsymbol{w}^\mathrm{T}\mathbf{S}_b\boldsymbol{w}}{\boldsymbol{w}^\mathrm{T}\mathbf{S}_w\boldsymbol{w}} J=wTSwwwTSbw

多分类问题

多分类问题与二分类类似,常见的处理方法是分组拆解为多个二分类问题。

“拆解法”

包括:一对一,一对多,多对多

LDA

KaTeX parse error: Got function '\boldsymbol' with no arguments as subscript at position 68: …\boldsymbol{S}_\̲b̲o̲l̲d̲s̲y̲m̲b̲o̲l̲{b}\boldsymbol{…

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/908583.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux【4】------RK3568启动和引导顺序

引导顺序 RK3568 的启动流程如下: 加电后,芯片首先执行 BootROM 中的代码; BootROM 会尝试从配置好的外部设备(如 NOR/NAND/eMMC/SD 卡)加载启动程序; 如果这些设备都没有有效的启动代码,Bo…

Deepseek/cherry studio中的Latex公式复制到word中

需要将Deepseek/cherry studio中公式复制到word中,但是deepseek输出Latex公式,比如以下Latex代码段,需要通过Mathtype翻译才能在word中编辑。 $$\begin{aligned}H_1(k1) & H_1(k) \frac{1}{A_1} \left( Q_1 u_1(k) Q_{i1} - Q_2 u_2(k…

关于iview组件中使用 table , 绑定序号分页后序号从1开始的解决方案

问题描述:iview使用table 中type: "index",分页之后 ,索引还是从1开始,试过绑定后台返回数据的id, 这种方法可行,就是后台返回数据的每个页面id都不完全是按照从1开始的升序,因此百度了下,找到了…

【机器学习】支持向量机实验报告——基于SVM进行分类预测

目录 一、实验题目描述 二、实验步骤 三、Python代码实现基于SVM进行分类预测 四、我的收获 五、我的感受 一、实验题目描述 实验题目:基于SVM进行分类预测 实验要求:通过给定数据,使用支持向量机算法(SVM)实现分…

前端开发面试题总结-JavaScript篇(二)

文章目录 其他高频问题15、JS的数据类型有哪些16、如何判断数组类型?17、解释 this 的指向规则18、跨域问题及解决方案19、宏任务与微任务的区别是什么?列举常见的宏任务和微任务。20、为什么微任务的优先级高于宏任务?设计目的是什么&#x…

硬件电路设计-开关电源设计

硬件电路设计-开关电源 电容选取设置输出电压电感的选取PCB布局典型电路 这里以杰华特的JW5359M 开关电源为例,介绍各个部分的功能电路。 当EN引脚电压低于0.4V时,整个稳压器关闭,稳压器消耗的电源电流降至1μΑ以下 电容选取 1.C1和C25构成…

phosphobot开源程序是控制您的 SO-100 和 SO-101 机器人并训练 VLA AI 机器人开源模型

​一、软件介绍 文末提供程序和源码下载 phosphobot开源程序是控制您的 SO-100 和 SO-101 机器人并训练 VLA AI 机器人开源模型。 二、Overview 概述 🕹️ Control your robot with the keyboard, a leader arm, a Meta Quest headset or via API 🕹️…

数据通信基础

信道特性 1.信道带宽W • 模拟信道:Wf2-f1(f2和f1分别表示:信道能通过的最高/最低频率,单位赫兹Hz)。 • 数字信道:数字信道是离散信道,带宽为信道能够达到的最大数据传输速率,单位…

C++与Python编程体验的多维对比:从语法哲学到工程实践

引言:语言定位的本质差异 作为静态编译型语言的代表,C以0开销抽象原则著称,其模板元编程能力可达图灵完备级别,而Python作为动态解释型语言,凭借鸭子类型和丰富的标准库成为快速开发的首选。这种根本差异导致两种语言…

TP6 实现一个字段对数组中的多个值进行LIKE模糊查询(OR逻辑)

在ThinkPHP6中,可以通过以下方式实现一个字段对数组中的多个值进行LIKE模糊查询(OR逻辑): 1,使用数组形式的where条件,通过第三个参数指定逻辑关系: $where[] [字段名, like, [%值1%, %值2%]…

接口不是json的内容能用Jsonpath获取吗,如果不能,我们选用什么方法处理呢?

JsonPath 是一种专门用于查询和提取 JSON 数据的查询语言(类似 XPath 用于 XML)。以下是详细解答: ​JsonPath 的应用场景​ ​API 响应处理​:从 REST API 返回的 JSON 数据中提取特定字段。​配置文件解析​:读取 J…

TCP/IP 与高速网络

题目用 “与” 而不是 “是” 连接两名词,说明它们天然互斥,就比如看到 “经理与人” ,自然而然的就会觉得经理接近了神。 数据在 TCP/IP 网络上传输获得的 “尽力而为” 承诺的时间在端到端时延中占比太大,以至于针对 TCP/IP 的…

Vue3 (数组push数据报错) 解决Cannot read property ‘push‘ of null报错问题

解决Cannot read property ‘push‘ of null报错问题 错误写法 定义变量 <script setup>const workList ref([{name:,value:}])</script>正确定义变量 <script setup>const workList ref([]) </script>解决咯~

React前端框架

React&#xff1a;构建现代用户界面的范式革命&#xff08;深度解析&#xff09; 引言&#xff1a;前端开发的范式转变 在2013年之前&#xff0c;前端开发领域被jQuery等库主导&#xff0c;开发者通过命令式编程直接操作DOM元素。这种模式存在两大痛点&#xff1a;代码可维护…

Redis:string数据类型

&#x1f308; 个人主页&#xff1a;Zfox_ &#x1f525; 系列专栏&#xff1a;Redis &#x1f525; String字符串 &#x1f9d1;‍&#x1f4bb; 字符串类型是Redis最基础的数据类型&#xff0c;关于字符串需要特别注意&#xff1a; ⾸先Redis中所有的键的类型都是字符串类…

获取 OpenAI API Key

你可以按照以下步骤来获取 openai.api_key&#xff0c;用于调用 OpenAI 的 GPT-4、DALLE、Whisper 等 API 服务&#xff1a; &#x1f9ed; 获取 OpenAI API Key 的步骤&#xff1a; ✅ 1. 注册或登录 OpenAI 账号 打开 https://platform.openai.com/ 使用你的邮箱或 Google/…

window安装docker\docker-compose

安装前配置 打开控制面板,参照下图打开“启动或关闭windows功能”,Hyper-V 和容器需要启用 程序和功能 启动或关闭windows功能 勾选Hyper-V 安装路径配置 Docker在Windows上的默认安装路径为C:\Program Files\Docker。 以管理员身份运行CMD在D盘,dev文件夹下创建Docker文…

Xxl-job——源码设计思考

摘要 本文深入探讨了XXL-Job框架的设计思考&#xff0c;分析了其不使用Lombok的Data注解的原因&#xff0c;包括明确控制代码结构、避免依赖侵入、增强可维护性和调试便利性、保持编译清晰以及遵循项目历史和团队编码规范。文章还详细介绍了XXL-Job的优化设计&#xff0c;包括…

九、【ESP32开发全栈指南: UDP通信服务端】

一、TCP与UDP核心差异 特性TCPUDP连接方式面向连接 (需三次握手)无连接可靠性可靠传输 (重传/排序/校验)尽力交付 (不保证可靠性)实时性延迟较高低延迟&#xff0c;实时性强传输效率协议开销大头部开销小 (仅8字节)连接类型点对点支持广播/多播资源占用高 (需维护连接状态)极低…

`mermaid-cli` 生成高分辨率 Mermaid 流程图(可以下载安装Typora更好 )的操作指南

以下是使用 mermaid-cli 生成高分辨率 Mermaid 流程图&#xff08;可以下载安装Typora更好 &#xff09;的操作指南 一、安装依赖&#xff08;需管理员权限&#xff09; 安装 Node.js v16 官网下载&#xff1a;Node.js 官方下载 验证安装成功&#xff1a; node -v # 应显…