机器学习-LinearRegression

思维导图

1、 关键数学知识点:

边缘概率密度 = 联合密度对非关注变量积分:fX(x)=∫fX,Y(x,y)dyf_X(x)=∫f_{X,Y}(x,y)dyfX(x)=fX,Y(x,y)dy
条件概率密度 = 切片 fX∣Y(x∣y)=fX,Y(x,y)/fY(y)f_{X|Y}(x|y)=f_{X,Y}(x,y)/f_Y(y)fXY(xy)=fX,Y(x,y)/fY(y)

概率密度函数和似然函数的区别:概率密度函数回答:“给定参数,数据出现的可能性有多大?”似然函数回答:“给定观测到的数据,哪些参数值更合理?”

2、 线性回归需要满足的假设:

1 残差独立同分布:独立同分布下边缘概率密度的乘积=联合概率密度,用于模型求似然函数
2 残差正态性:模型的根本假设,模型的边缘概率密度由正态函数求得,这个正态函数来源于残差

3、 目标函数的推导过程:

1. 建模假设

y(i)=θ⊤x(i)+ε(i)y (i) =θ ⊤ x (i) +ε (i)y(i)=θx(i)+ε(i),
ε(i)∼i.i.d.N(0,σ2)ε (i) ∼i.i.d. N(0,σ 2 )ε(i)i.i.d.N(0,σ2)
p(ε)=12π σexp⁡(−ε22σ2)p(\varepsilon)=\frac{1}{\sqrt{2\pi}\,\sigma}\exp\left(-\frac{\varepsilon^{2}}{2\sigma^{2}}\right)p(ε)=2πσ1exp(2σ2ε2)

2. 单个样本的概率密度(也就是边缘概率密度,借由ε\varepsilonε的分布计算而来):

(只需要将ε\varepsilonε代入, ε(i)=yi−θ⊤xi\varepsilon^{(i)} = y^{i} - \theta^{\top} x^{i}ε(i)=yiθxiε\varepsilonε的概率密度函数和y(i)y^{(i)}y(i)的概率密度函数实际上是相等的,ε\varepsilonε只是yiy^{i}yi平移了y(i)−θ⊤x(i)y^{(i)} - \theta^{\top} x^{(i)}y(i)θx(i),对于概率密度函数,只要形状不变,坐标轴变了也是相等的)


p(y(i)∣x(i);θ)=12πσexp⁡ ⁣(−(y(i)−θ⊤x(i))22σ2)p\bigl(y^{(i)}\mid x^{(i)};\theta\bigr)= \frac{1}{\sqrt{2\pi}\sigma}\exp\!\left(-\frac{(y^{(i)}-\theta^\top x^{(i)})^2}{2\sigma^2}\right)p(y(i)x(i);θ)=2πσ1exp(2σ2(y(i)θx(i))2)

p(y(i)∣x(i);θ)p\bigl(y^{(i)}\mid x^{(i)};\theta\bigr)p(y(i)x(i);θ) 可理解为:在给定输入 x⁽ⁱ⁾ 并且模型参数取 θ 的条件下,观测到 y⁽ⁱ⁾ 的概率密度是多少?

3. 写出整个数据集的似然函数(即把观测值y固定、把参数θ当作变量的联合概率密度函数,称之为似然函数,由边缘概率密度的乘积计算得来)

(边缘概率密度的乘积=联合概率密度,也就是似然函数,这是独立同分布的数学定理)


L(θ)=∏i=1mp(y(i)∣x(i);θ)=∏i=1m12πσexp⁡ ⁣(−(y(i)−θ⊤x(i))22σ2)=(2πσ2)−m2exp⁡ ⁣(−12σ2∑i=1m(y(i)−θ⊤x(i))2).\begin{aligned} L(\theta) &= \prod_{i=1}^{m} p\bigl(y^{(i)}\mid x^{(i)};\theta\bigr) \\ &= \prod_{i=1}^{m} \frac{1}{\sqrt{2\pi}\sigma}\exp\!\left(-\frac{(y^{(i)}-\theta^\top x^{(i)})^2}{2\sigma^2}\right) \\ &= (2\pi\sigma^2)^{-\frac{m}{2}}\exp\!\left(-\frac{1}{2\sigma^2}\sum_{i=1}^{m}(y^{(i)}-\theta^\top x^{(i)})^2\right). \end{aligned}L(θ)=i=1mp(y(i)x(i);θ)=i=1m2πσ1exp(2σ2(y(i)θx(i))2)=(2πσ2)2mexp(2σ21i=1m(y(i)θx(i))2).

4. 取对数得到对数似然

ℓ(θ)=log⁡L(θ)=−m2log⁡(2πσ2)−12σ2∑i=1m(y(i)−θ⊤x(i))2.\ell(\theta)=\log L(\theta) = -\frac{m}{2}\log(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{m}(y^{(i)}-\theta^\top x^{(i)})^2.(θ)=logL(θ)=2mlog(2πσ2)2σ21i=1m(y(i)θx(i))2.

5. 最大化对数似然 ⇔ 最小化残差平方和

( 在误差服从高斯分布的假设下,极大似然估计与最小二乘估计恰好得到同一解)
θ^MLE=arg⁡max⁡θℓ(θ)=arg⁡min⁡θ∑i=1m(y(i)−θ⊤x(i))2.\hat\theta_{\text{MLE}} = \arg\max_{\theta}\ell(\theta) = \arg\min_{\theta}\sum_{i=1}^{m}(y^{(i)}-\theta^\top x^{(i)})^2.θ^MLE=argmaxθ(θ)=argminθi=1m(y(i)θx(i))2.
(arg⁡max⁡\arg\maxargmax找出让某个函数达到最大值的输入值(θ\thetaθ),而不是最大值本身)

6. 结论(对目标函数求极值)

根据最大似然估计的一阶最优条件U(θ)=∇θℓ(θ)=0U(\theta) = \nabla_{\theta} \ell(\theta) = 0U(θ)=θ(θ)=0对对数似然函数求导并令其为零(求极值),可以推导出以下正规方程:
θ^MLE=(X⊤X)−1X⊤y, \hat\theta_{\text{MLE}} = (X^\top X)^{-1}X^\top y, θ^MLE=(XX)1Xy,
其中
X=[x(1)⊤⋮x(m)⊤]∈Rm×n,y=[y(1)⋮y(m)]∈Rm×1. X=\begin{bmatrix} x^{(1)\top}\\ \vdots\\ x^{(m)\top} \end{bmatrix}\in\mathbb R^{m\times n},\qquad y=\begin{bmatrix} y^{(1)}\\ \vdots\\ y^{(m)} \end{bmatrix}\in\mathbb R^{m\times 1}. X=x(1)x(m)Rm×n,y=y(1)y(m)Rm×1.
求解正规方程时X要加上一列x0,x0列全为1即可
在高斯噪声假设下,线性回归的最大似然估计等价于最小二乘估计


7. 最后对U(θ)U(\theta)U(θ)再次求导可以进一步求检验统计量
#%% md

4、解释为什么有些时候为什么必须要满足线性回归假设,即使明明可以用OLS,而OLS不需要这些假设

1、为了使得OLS和MLE相同,因为MLE有无法替代的优势:
(1)一致性(样本越大,估计越接近真值);
(2)渐近有效性(样本足够大时,它的方差是所有估计里最小的);
(3)可推导分布(可以算出估计量的分布,从而做假设检验)。


2、 让 t/F 检验的 p 值和置信区间在小样本下完全准确


3、在满足 高斯马尔可夫定理 条件(零均值、同方差、无自相关)的线性回归模型里,OLS 是所有线性无偏估计中(在给定解释变量条件下)方差最小的那一个,即 BLUE(Best Linear Unbiased Estimator)。如果 GM 条件不满足,OLS 仍是无偏且线性的,但 不再保证方差最小;这时可能有其他线性无偏估计(例如 GLS)方差更小。




结论 :对于纯粹的预测,不一定需要满足条件,因为不需要假设检验自然也不不需要MLE的性质,只要结果好就行

5梯度下降(SGD)

数学推导过程
  1. 假设模型:
    y^=w⋅x+b \hat{y} = w \cdot x + b y^=wx+b

  2. 定义损失函数:(这一步是和正规方程方法一样的)
    L=12m∑i=1m(w⋅xi+b−yi)2 L = \frac{1}{2m} \sum_{i=1}^{m} \left( w \cdot x_i + b - y_i \right)^2 L=2m1i=1m(wxi+byi)2

  3. www 求偏导:
    ∂L∂w=1m∑i=1m(w⋅xi+b−yi)⋅xi \frac{\partial L}{\partial w} = \frac{1}{m} \sum_{i=1}^{m} \left( w \cdot x_i + b - y_i \right) \cdot x_i wL=m1i=1m(wxi+byi)xi

  4. bbb 求偏导:
    ∂L∂b=1m∑i=1m(w⋅xi+b−yi) \frac{\partial L}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} \left( w \cdot x_i + b - y_i \right) bL=m1i=1m(wxi+byi)


梯度下降更新规则:
  • w=w−α⋅(1m∑(y^−y)⋅x) w = w - \alpha \cdot \left( \frac{1}{m} \sum ( \hat{y} - y ) \cdot x \right) w=wα(m1(y^y)x)

  • b=b−α⋅(1m∑(y^−y)) b = b - \alpha \cdot \left( \frac{1}{m} \sum ( \hat{y} - y ) \right) b=bα(m1(y^y))

其中 α\alphaα 是学习率,mmm 是样本数量。


梯度下降和正规方程区别:

正规方程是根据损失函数,设损失函数的所有参数的偏导(直接求导)的结果为0,通过矩阵运算一次性推出损失函数的最优参数


梯度下降是对损失函数各个参数求偏导,并不需要将偏导设为0求最优参数,而是只求偏导的结果(梯度),然后根据学习率沿着梯度的方向走,并逐步迭代

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/92316.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/92316.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决微信小程序中如何把npm构建的模块与主包分离,构建到分包上面

1、配置分包2、复制packge.json到分包中3、在project.config.json中增加npm配置4、终端执行npm i下载模块5、构建npm到miniprogram_npm中

自动驾驶中的传感器技术21——Camera(12)

自动驾驶摄像头的图像评测 摄像头的性能受到环境光照、天气条件、运动模糊等因素的影响,因此需要通过多方面的评测来确保其在各种场景下的可靠性。 在自动驾驶领域,图像质量评估不仅关注图像的清晰度、分辨率等传统指标,还需要结合目标检测…

AI+OA原生应用 麦当秀AIPPT

麦当秀也在WAIC期间重新定义AIOA一、什么是“原生AI”?“原生AI”可以理解为:AI系统本身具备完整的办公能力,不需要依赖传统办公软件(如Word、Excel、PPT)作为载体。也就是说,用户可以直接通过AI系统完成文…

K8S 入门操作

之前一直用kubectl这个命令操作,这些都是基于命令来操作K8S kubectl get pods kubectl get nodes kubectl get svc kubectl create deployment... kubectl expose deployment...kubectl 文档 命令行工具 (kubectl) | Kubernetes 命令参考 Kubectl Reference Doc…

蒙文OCR识别技术难点实现及应用场景剖析

一、蒙文OCR识别核心技术难点1. 文字特性带来的识别挑战连写特性:蒙文字符存在复杂的连写形式(词首、词中、词尾变形)方向特异性:传统蒙文为垂直书写(现代也有横排),需特殊方向处理字符相似性&a…

通过docker构建一个java镜像

通过docker构建一个java镜像 FROM zlyxzq/centos7:v1 VOLUME /tmp WORKDIR /app COPY /target/aa.jar /root/app/aa.jarENV TZAsia/Shanghai RUN ln -snf /usr/share/zoneinfo/$TZ /etc/localtime && echo $TZ > /etc/timezoneENV JAVA_HOME /usr/local/java ENV PA…

SpringBoot学习日记 Day5:解锁企业级开发核心技能

一、前言:从玩具项目到生产系统经过前四天的学习,我们已经能够开发基础功能了。但要让应用真正具备生产价值,还需要掌握数据库高级操作、事务控制、缓存优化等企业级开发技能。今天就来攻克这些关键知识点!二、JPA进阶&#xff1a…

将英文PDF文件完整地翻译成中文的4类方式

文章目录一、在线翻译服务(最快捷,适合临时查看)1.1 代表工具:1.2 操作流程(以Google翻译为例)1.3 优点和缺点1.4 适用场景二、专业软件(最佳平衡,兼顾格式与质量)2.1 代…

【分享】我国八大沙漠空间矢量范围

今天小编整理分享的是 我国八大沙漠空间矢量范围shp。▲ 我国八大沙漠空间矢量范围概况数据概况我国八大沙漠空间矢量范围。中国八大沙漠。分别为腾格里沙漠,塔克拉马干沙漠,巴丹吉林沙漠,库布奇沙漠,乌兰布和沙漠,库…

【音视频】WebRTC C++ native 编译

一、搭建环境 我们这里介绍在Windows10VS2019的环境下编译WebRTC源码,由于WebRTC源码在外网上,需要科学的方式下载,不然下载特别慢,建议直接找国内下载好的源码,这里的源码是2021年的版本:https://pan.bai…

Selenium在Pyhton应用

目录 1. selenium的基本原理 2. selenium环境的搭建步骤 3. 元素的定位和操作 4.元素的基本属性方法 5.浏览器的操作方法 6.三种等待 强制等待 显示等待 隐式等待 7. 键盘与鼠标的操作 鼠标悬停用 拖拽操作 8. 下拉框元素定位 9.页面滚动操作 10. 页面截图操作 S…

【Docker】Redis基础命令在Docker中的使用

文章目录一 Redis 容器化部署指南1 获取 Redis 镜像2 服务启动2.1 首次启动新容器2.2 重启已有容器3 服务验证4 连接 Redis5 数据持久化方案5.1 使用 Docker 卷5.2 启用 AOF 持久化6 容器管理6.1 停止容器6.2 删除容器7 数据清理7.1 清空 Redis 数据7.2 完全移除7.3 删除数据卷…

ubuntu 2024 安装拼音输入法

1. 卸载ibussudo apt remove ibus2. install fcitx5核心组件sudo apt install fcitx5 fcitx5-chinese-addons fcitx5-material-color3. 安装中文语言支持sudo apt install language-pack-zh-hans4. 设置默认输入法im-config -n fcitx55. 配置环境变量sudo vim ~/.bashrc粘贴&am…

语言模型的多个agent

是的,语言模型 在某些情况下确实可以通过多个 agent(代理)来共同协作完成任务。这种设计通常用于复杂任务或需要多步骤处理的场景,具体的流程如下: 1. 什么是 Agent? Agent(代理) 是…

CSS--:root指定变量,其他元素引用

原文网址:CSS--:root指定变量,其他元素引用-CSDN博客 简介 本文介绍CSS中使用变量的方法。 场景描述 CSS可以使用变量,比如:指定整个网页的主体颜色作为变量,其他的元素去使用这个颜色。这样在修改颜色时&#xff…

秋招笔记-8.7

今天先来补充一下关于Unity和UE的一些问题,后续开始深挖项目:Unity关于fixed update和update:同一帧中物理更新优先执行?关于协程:协程是基于迭代器实现的,而迭代器是基于状态机实现的。协程的本质是编译器…

DAY 26 函数专题1:函数定义与参数

浙大疏锦行知识点回顾: 函数的定义变量作用域:局部变量和全局变量函数的参数类型:位置参数、默认参数、不定参数传递参数的手段:关键词参数传递参数的顺序:同时出现三种参数类型时 作业 #作业1 import math def calcul…

跨学科视域下的深层语义分析与人类底层逻辑一致性探索

摘要本文章旨在系统性地探讨一个前沿的交叉学科研究课题:如何通过深层语义分析,探索并建模人类认知中普遍存在的底层逻辑一致性。此研究横跨自然语言处理(NLP)、知识图谱(KG)、认知科学、脑神经科学、系统科…

Flink CDC如何保障数据的一致性?

Flink CDC 通过 Checkpoint 机制、幂等性设计 和 事务一致性协议 保障数据同步的一致性。以下是具体实现方式和关键配置:1. Checkpoint 机制(核心保障)作用:定期保存同步状态(包括 Binlog 位置和全量快照进度&#xff…

上传文件至华为云OBS

1 创建华为云Bucket1.1 创建Bucket1.2 获取Bucket的Endpoint1.3 获取访问凭证注:每个访问密钥仅能下载一次,为了账号安全性,建议您定期更换并妥善保存访问密钥。不再使用的访问密钥,建议停用和删除。2 创建Sprint Boot工程创建一个…