从高斯噪声的角度分析MAE和MSE

文章目录

  • 1. MAE与MSE的本质区别
  • 2. 高斯噪声下的统计特性
  • 3. MAE导致稀疏解的内在机制
  • 4. 对比总结

1. MAE与MSE的本质区别

MAE(Mean Absolute Error)和MSE(Mean Squared Error)是两种常用的损失函数,它们的数学形式决定了对误差的不同敏感程度:

  • MAEMAE=1n∑i=1n∣yi−y^i∣\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|MAE=n1i=1nyiy^i
  • MSEMSE=1n∑i=1n(yi−y^i)2\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2MSE=n1i=1n(yiy^i)2

从几何角度看,MSE等价于欧氏距离的平方,而MAE等价于曼哈顿距离。这导致MSE对离群点更加敏感,而MAE更具鲁棒性。

2. 高斯噪声下的统计特性

在噪声服从高斯分布 ϵ∼N(0,σ2)\epsilon \sim \mathcal{N}(0, \sigma^2)ϵN(0,σ2) 的假设下:

  1. MSE是最优损失函数
    MSE对应于高斯噪声下的最大似然估计(MLE)。此时,最小化MSE等价于最大化对数似然函数:
    arg⁡min⁡θ∑i=1n(yi−f(xi;θ))2⇔arg⁡max⁡θ∏i=1n12πσ2exp⁡(−(yi−f(xi;θ))22σ2)\arg\min_{\theta} \sum_{i=1}^{n} (y_i - f(x_i; \theta))^2 \quad \Leftrightarrow \quad \arg\max_{\theta} \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - f(x_i; \theta))^2}{2\sigma^2}\right) argθmini=1n(yif(xi;θ))2argθmaxi=1n2πσ21exp(2σ2(yif(xi;θ))2)
    高斯分布的二次指数形式直接对应平方误差。

  2. MAE的统计假设
    MAE对应于噪声服从拉普拉斯分布时的MLE。拉普拉斯分布的概率密度函数为:
    p(ϵ)=12bexp⁡(−∣ϵ∣b)p(\epsilon) = \frac{1}{2b} \exp\left(-\frac{|\epsilon|}{b}\right) p(ϵ)=2b1exp(bϵ)

    arg⁡min⁡θ∑i=1n∣yi−f(xi;θ)∣⇔arg⁡max⁡θ∏i=1n12bexp⁡(−∣yi−f(xi;θ)∣b)\arg\min_{\theta} \sum_{i=1}^{n} |y_i - f(x_i; \theta)| \quad \Leftrightarrow \quad \arg\max_{\theta} \prod_{i=1}^{n} \frac{1}{2b} \exp\left(-\frac{|y_i - f(x_i; \theta)|}{b}\right) argθmini=1nyif(xi;θ)argθmaxi=1n2b1exp(byif(xi;θ))
    此时,最小化MAE等价于最大化拉普拉斯分布下的对数似然。

3. MAE导致稀疏解的内在机制

MAE容易产生稀疏解的根本原因在于其梯度特性:

  1. MAE的梯度恒定
    MAE的梯度为:
    ∂MAE∂θ={+1,if yi−f(xi;θ)>0−1,if yi−f(xi;θ)<0undefined,if yi−f(xi;θ)=0\frac{\partial \text{MAE}}{\partial \theta} = \begin{cases} +1, & \text{if } y_i - f(x_i; \theta) > 0 \\ -1, & \text{if } y_i - f(x_i; \theta) < 0 \\ \text{undefined}, & \text{if } y_i - f(x_i; \theta) = 0 \end{cases} θMAE=+1,1,undefined,if yif(xi;θ)>0if yif(xi;θ)<0if yif(xi;θ)=0
    当参数接近零时,梯度仍保持恒定(±1),促使参数快速收敛到零。

  2. MSE的梯度衰减
    MSE的梯度为:
    ∂MSE∂θ=−2(yi−f(xi;θ))⋅∂f(xi;θ)∂θ\frac{\partial \text{MSE}}{\partial \theta} = -2(y_i - f(x_i; \theta)) \cdot \frac{\partial f(x_i; \theta)}{\partial \theta} θMSE=2(yif(xi;θ))θf(xi;θ)
    当误差接近零时,梯度趋近于零,导致参数更新变得非常缓慢,难以彻底消除小参数。

  3. 几何解释
    从优化角度看,MAE的等高线是菱形(在二维空间中),其顶点位于坐标轴上;而MSE的等高线是圆形。当损失函数的最小值靠近坐标轴时,MAE的等高线更容易与坐标轴相交,从而使某些参数被置零。更多可见 损失函数的等高线与参数置零的关系

    在这里插入图片描述

4. 对比总结

特性MSEMAE
对离群点敏感度高(平方放大误差)低(线性处理误差)
噪声分布假设高斯分布拉普拉斯分布
梯度特性梯度随误差减小而衰减梯度恒定(除零点外)
稀疏性不易产生稀疏解易产生稀疏解
优化稳定性平滑优化,数值稳定性好非光滑优化,可能需要特殊处理

在实际应用中,如果数据包含较多离群点或需要进行特征选择,MAE是更合适的选择;如果追求预测精度且噪声近似高斯分布,MSE通常表现更好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/91592.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/91592.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AR智能巡检:制造业零缺陷安装的“数字监工”

在制造业中&#xff0c;设备安装与组装环节的准确性是产品质量和生产效率的关键。传统的人工巡检和纸质作业指导书容易因人为疏忽、经验不足或信息滞后导致安装错误&#xff0c;进而引发返工、延误甚至安全事故。然而&#xff0c;随着增强现实&#xff08;AR www.teamhelper.cn…

js最简单的解密分析

js最简单的解密分析 一、JavaScript 代码保护技术简介 ✅ 为什么要保护 JavaScript 代码&#xff1f; JavaScript 是前端语言&#xff0c;代码在浏览器中是完全可见的。这意味着&#xff1a; 别人可以轻松查看你的核心算法或业务逻辑页面上的接口地址、加密逻辑等容易被抓包分析…

React强大且灵活hooks库——ahooks入门实践之开发调试类hook(dev)详解

什么是 ahooks&#xff1f; ahooks 是一个 React Hooks 库&#xff0c;提供了大量实用的自定义 hooks&#xff0c;帮助开发者更高效地构建 React 应用。其中开发调试类 hooks 是 ahooks 的一个重要分类&#xff0c;专门用于开发调试阶段&#xff0c;帮助开发者追踪组件更新和副…

React强大且灵活hooks库——ahooks入门实践之副作用类hook(effect)详解

什么是 ahooks&#xff1f; ahooks 是一个 React Hooks 库&#xff0c;提供了大量实用的自定义 hooks&#xff0c;帮助开发者更高效地构建 React 应用。其中副作用类 hooks 是 ahooks 的一个重要分类&#xff0c;专门用于处理各种副作用操作&#xff0c;如定时器、防抖、节流等…

SpringBoot一Web Flux、函数式Web请求的使用、和传统注解@Controller + @RequestMapping的区别

一、函数式 Web 在 Spring Boot 中&#xff0c;使用函数式 Web&#xff08;Function-based Web&#xff09;可以通过 RouterFunction 和 HandlerFunction 来定义路由和请求处理逻辑。这种方式与传统的注解驱动的方式不同&#xff0c;它更加简洁&#xff0c;并且适合响应式编程。…

Vue+Cesium快速配置指南

安装必要依赖在项目根目录下运行以下命令安装vue-cesium和cesium&#xff1a;npm install vue-cesium3.1.4 cesium1.84配置Vite在vite.config.js文件中添加以下配置&#xff1a;import { defineConfig } from vite import vue from vitejs/plugin-vue import { resolve } from …

矿业自动化破壁者:EtherCAT转PROFIBUS DP网关的井下实战

在深井钻机的轰鸣、矿石输送带的奔流与通风设备的不息运转中&#xff0c;矿业生产的脉搏强劲跳动。然而&#xff0c;这片创造价值的土地&#xff0c;却为自动化技术的深入设置了严苛的考场&#xff1a;信息孤岛林立&#xff1a; 高效现代的EtherCAT控制系统与井下大量稳定服役的…

SpringBoot+Loki4j+Loki+Grafana搭建轻量级日志系统

文章目录前言一、组件介绍&#xff08;一&#xff09;Loki特点架构适用场景总结&#xff08;二&#xff09;Loki4j特点&#xff08;三&#xff09;Grafana特点适用场景二、组件配置&#xff08;一&#xff09;Loki&#xff08;二&#xff09;Grafana三、项目搭建参考文章前言 …

SpringCloud之Config

SpringCloud之Config 推荐网站&#xff1a;https://www.springcloud.cc/spring-cloud-dalston.html#_spring_cloud_config 1. 什么是 Spring Cloud Config Spring Cloud Config 是 Spring 官方提供的 分布式配置中心 组件&#xff0c;用来 集中管理、动态下发、版本控制 所有微…

探索VB.NET中的贝塞尔Bezier曲线绘制技巧

简介&#xff1a;Bezier曲线是计算机图形学中用于创建平滑曲线的重要工具&#xff0c;广泛应用于图形设计、游戏开发、CAD系统等领域。本文深入探讨了Bezier曲线的基础知识&#xff0c;并详细说明了如何在Visual Basic中使用 Graphics 对象的 DrawBezier 方法绘制曲线。通过理论…

分布式分片策略中,分片数量的评估与选择

分布式分片策略中,分片数量的评估与选择是影响系统性能、扩展性和运维成本的核心问题 一、分片数量评估方法论 1. ​​数据量基准模型​​ ​​单分片容量建议​​:根据Elasticsearch最佳实践,单个分片建议控制在10-50GB(冷数据可放宽至100GB),超过100GB会导致段合并效率…

Vue3高级特性:深入理解effectScope及其应用场景

系列文章目录 Vue3 组合式 API 进阶&#xff1a;深入解析 customRef 的设计哲学与实战技巧 Vue3 watchEffect 进阶使用指南&#xff1a;这些特性你可能不知道 Vue3高级特性&#xff1a;深入理解effectScope及其应用场景 文章目录系列文章目录前言一、核心概念1、什么是 effect…

Docker 中的动态配置:docker update 命令与环境变量管理

Docker 中的动态配置&#xff1a;docker update 命令与环境变量管理 在 Docker 容器的日常管理中&#xff0c;动态调整配置以适应业务需求变化是常见的操作。docker update 命令作为 Docker 平台的重要工具&#xff0c;为运行中的容器提供了便捷的配置调整方式&#xff0c;而环…

ELK 使用教程采集系统日志

作者&#xff1a;小凯 沉淀、分享、成长&#xff0c;让自己和他人都能有所收获&#xff01; 本文的宗旨在于通过易于上手实操的方式&#xff0c;教会读者完成系统ELK日志采集的对接和使用。那你知道对于一个系统的上线考察&#xff0c;必备的几样东西是什么吗&#xff1f;其实这…

小程序部分pai

wx.setClipboardData 这是微信小程序提供的 API&#xff0c;用于将数据复制到剪贴板。 Page({data: {clientInfo: {email: exampleexample.com // 假设的邮箱数据}},// 复制邮箱到剪贴板copyEmail: function() {wx.setClipboardData({data: this.data.clientInfo.email,success…

【解决方案】鸿蒙 / 矿鸿系统 Shell 无故退出问题(息屏导致)详解

平台环境 OpenHarmony 版本&#xff1a;4.1 release开发板&#xff1a;DAYU / RK3568调试工具&#xff1a;hdc 在使用 OpenHarmony 4.1 Release&#xff08;矿鸿系统&#xff09;进行开发时&#xff0c;遇到这样的问题&#xff1a; &#x1f6a8; Shell 会在一段时间后自动退出…

Data Analysis TTAD=>CNN-BiGRU-MSA

TTAO 预处理、CNN-BiGRU-MSA 模型 时序数据回归分析时序数据分析方法&#xff0c;特点&#xff1a;TTAO 预处理&#xff1a;通过三角拓扑结构增强时序特征的局部和全局关系混合模型架构&#xff1a;CNN 层提取局部特征模式BiGRU 捕获双向时序依赖多头自注意力机制进行序列建模…

python-字典、集合、序列切片、字符串操作(笔记)

一、字符串常见操作&#xff08;重点&#xff09;​1.​2.字符串无法修改#错误示范 str1"djskds" str1[2]"3"3.​str1"abcand" # 输出3 print(str1.index("and"))4.​str1"abcand" newStrstr1.replace("and",&quo…

【Android】EditText使用和监听

三三想成为安卓糕手 一&#xff1a;用户登录校验 1&#xff1a;EditText文本输入框<EditTextandroid:id"id/et_user_name"android:layout_width"match_parent"android:layout_height"wrap_content"android:inputType"number"androi…

SQL 中根据当前时间动态计算日期范围

在 SQL 中写“动态时间”通常是指根据当前时间动态计算日期范围&#xff0c;而不是写死固定日期。以下是几种常见写法&#xff08;以 SQL Server / MySQL / PostgreSQL 为例&#xff09;&#xff1a;1. 获取当前时间-- SQL Server SELECT GETDATE() AS now-- MySQL SELECT NOW(…