L1、L2正则化的几何解释

L2正则化:

图中用几何方式形象地解释了 Ridge 回归(L2正则化)的原理。

① 阴影圆:可以理解为(w1^2 + w2^2)​≤R^2,圆周表示目标函数的约束线,这个圆表示了我们的参数 (w1,w2)可以活动的范围。

  • 为什么要约束? 因为如果权重太大,模型在训练集上可能表现极好(拟合很好),但在新数据上的表现会大幅下降(过拟合)。
  • R 越小意味着什么?圆变小,给权重的空间就越小,惩罚越强,模型更简单,更不容易过拟合。R 越大,模型约等于普通线性回归(无正则化)。

② 最小化成本点(最小二乘估计点)在图中心的黑点,就是普通线性回归的最小二乘解,也就是“拟合训练数据最好的点”

  • 用等高线(椭圆)表现:图里一圈一圈的椭圆,代表对于不同 (w1,w2)参数组合的损失(成本)大小。
    • 离中心越近,损失越小(拟合训练集效果越好)。
    • 离中心越远,损失越大(拟合效果变差)。
  • 过拟合的风险:最小化成本点其实对训练集来说是最优解,但往往会过拟合,也就是在新数据上表现很差。所以我们不总是选这个点作为模型的最终解。

我们的目标:不是单纯让损失最小,而是让损失和权重大小都要“

约束下的最优解是什么?

  • 如果没有约束,解就在最小化成本点(中心)。
  • 有了约束之后,我们只能在圆内找解:我们希望找一个既让损失足够小,又不会让参数过大(也就是不过拟合)

最终解的位置

  • 这就是图里圆和某个等高线“刚好相切”的那个点,既满足了“损失尽量小”,又不超出圆圈(不让参数过大)。这个点就是 带有L2惩罚的解。

L1正则化:

L1, L2 的区别

对于 L2 来说,限定区域是圆,这样,得到的解 w1 或 w2 为 0 的概率很小,很大概率是非零的。

对于 L1 来说,限定区域是正方形,方形的最优解位置通常是在是尖锐点,这从视觉和常识上来看是很容易理解的。也就是说,方形的凸点会更接近最优解对应的 w 位置,而从图中我们可以知道凸点处必有 w1 或 w2 为 0。这样,得到的解 w1 或 w2 为零的概率就很大了。

reference:

以几何思维理解L1&L2正则化 - 简书

(5 封私信) 【通俗易懂】机器学习中 L1 和 L2 正则化的直观解释 - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/91805.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/91805.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【学习笔记】Java并发编程的艺术——第1章 并发编程的挑战

第1章 并发编程的挑战 1.1 上下文切换 即使是单核处理器也支持多线程执行代码,CPU给每个线程分配CPU时间片实现多线程,而每个时间片一般是几十毫秒,所以多个线程感觉是同时执行的 但同一个核切换线程执行时会保存运行状态,以便下次…

leecode3 无重复元素的最长子串

我的思路 原始代码 我发现我虽然解决问题了,但是我的思路不简洁,不明白。 这个题本质上还是滑动窗口的问题。 具体思路为先定义两个指针,对应滑动窗口的两个边界关键是:定义一个集合,来判断这个窗口中的元素是否存在重…

【嵌入式汇编基础】-ARM架构基础(三)

ARM架构基础(三) 文章目录 ARM架构基础(三) 7、AArch64 执行状态 7.3 程序计数器 7.4 堆栈指针 7.5 零寄存器 7.6 链接寄存器 7.7 帧指针 7.8 平台寄存器 (x18) 7.9 过程内调用寄存器 7.10 SIMD 和浮点寄存器 7.11 系统寄存器 7.13 PSTATE 7、AArch64 执行状态 7.3 程序计…

[buuctf-misc]喵喵喵

m题目在线评测BUUCTF 是一个 CTF 竞赛和训练平台,为各位 CTF 选手提供真实赛题在线复现等服务。https://buuoj.cn/challenges#%E5%96%B5%E5%96%B5%E5%96%B5BUUCTF 是一个 CTF 竞赛和训练平台,为各位 CTF 选手提供真实赛题在线复现等服务。https://buuoj.…

Vue 详情模块 2

Vue 渐进式JavaScript 框架 基于Vue2的移动端项目:详情基础内容,日期及电影描述 目录 详情 详情基础内容 初始化与赋值 渲染基础内容 详情样式 日期处理 安装moment 定义过滤器 使用过滤器 电影描述 总结 详情 详情基础内容 初始化与赋值 …

【MODIS数据】MYD03

🌍 遥感数据的“导航仪”:深入解析MYD03地理定位产品 在卫星遥感领域,精确的地理定位是数据应用的基础。作为Aqua卫星中分辨率成像光谱仪(MODIS)的核心支撑产品,MYD03虽不如地表温度或植被指数产品知名&am…

如何填写PDF表格的例子

实际应用场景中,我们会遇到需要根据会话内容自动填写表格的情况,比如:pdf 表格。假设根据会话内容已经获得相关信息,下面以填写个人信息为例来说明。个人信息表格.pdf填写后的效果:填写代码如下:from pdfrw…

2023年影响重大的网络安全典型案例

以下是2023年影响重大的网络安全典型案例,按时间顺序梳理事件经过及技术细节:---一、DeFi协议攻击:dForce借贷协议遭入侵(2023年4月)** - 时间线: - 4月19日08:58:黑客开始攻击Lendf.Me合约&…

Vue 响应式基础全解析2

DOM更新时机 修改响应式状态后,DOM更新不是同步的。Vue会缓冲所有修改,在"next tick"周期中统一更新,确保每个组件只更新一次。 如需在DOM更新后执行代码,可使用nextTick(): import {nextTick } from vueasync function increment() {count.value++

【黑马SpringCloud微服务开发与实战】(九)elasticsearch基础

1. 认识elasticsearch2. 认识和安装ES主播这里之前已经安装好了,资料包里面有镜像 docker run -d \--name es \-e "ES_JAVA_OPTS-Xms512m -Xmx512m" \-e "discovery.typesingle-node" \-v es-data:/usr/share/elasticsearch/data \-v es-plugin…

由浅入深地讲清楚浏览器缓存

一、什么是浏览器缓存?(入门级) 1. 浏览器缓存的定义浏览器缓存就是:浏览器把之前请求过的资源保存起来,下次访问同样的资源时可以直接用本地副本,而不是重新请求服务器。举个生活例子: 你第一次…

Linux I/O 多路复用机制对比分析:poll/ppoll/epoll/select

Linux I/O 多路复用机制对比分析:poll/ppoll/epoll/select 1. 概述 I/O 多路复用是现代高性能网络编程的核心技术,它允许单个线程同时监视多个文件描述符的状态变化,从而实现高效的并发处理。Linux 提供了多种 I/O 多路复用机制&#xff0c…

高防服务器租用:保障数据安全

您的网络速度是否卡顿,业务是否经常受到网络攻击的威胁呢?别担心,高防服务器租用能够帮助你解决这些困扰!高防服务器租用拥有着卓越的防御能力,可以帮助企业抵御各种网络攻击,能够轻松化解各种超大流量的网…

基于python多光谱遥感数据处理、图像分类、定量评估及机器学习方法应用

基于卫星或无人机平台的多光谱数据在地质、土壤调查和农业等应用领域发挥了重要作用,在地质应用方面,综合Aster的短波红外波段、landsat热红外波段等多光谱数据,可以通过不同的多光谱数据组合,协同用于矿物信息有效提取。第一&…

CSS content-visibility:提升页面渲染性能的 “智能渲染开关”

在前端开发中,你是否遇到过这样的问题:页面包含大量 DOM 元素(如长列表、复杂表格)时,滚动变得卡顿,交互响应迟缓?这往往是因为浏览器需要不断渲染屏幕外的元素,浪费了大量计算资源。…

Javascript面试题及详细答案150道之(016-030)

《前后端面试题》专栏集合了前后端各个知识模块的面试题,包括html,javascript,css,vue,react,java,Openlayers,leaflet,cesium,mapboxGL,threejs&…

仿真电路:(十七下)DC-DC升压压电路原理简单仿真

1.前言 升压的环境用的没降压的多,但是升压会用在LED的很多电路上,所以理解一下原理 2.DC-DC升压原理简单仿真 升压原理 下面还是对升压进行简单的仿真 拓扑结构以及原理和降压还是很相似的,只是位置不太一样,过程推导就不推导…

ros2--source

setup脚本类型 install下面会有几个setup.xxx的shell脚本。 setup.bash setup.ps1 setup.sh setup.zsh 什么区别呢 文件名 Shell 类型 适用场景 setup.bash Bash (Linux/macOS) 标准 Linux/macOS 终端(默认使用) setup.sh 通用 Shell 兼容性更广,但功能可能受限 setu…

40.MySQL事务

1.事务的作用事务用于保证数据的一致性,它由一组相关的 dml (update delete insert) 语句组成,该组的 dml (update delete insert) 语句要么全部成功,要么全部失败。如:转账就要用事务来处理,用以保证数据的一致性。假…

java导入pdf(携带动态表格,图片,纯java不需要模板)

java导出pdf文件一、介绍二、准备三、实现效果四、代码一、介绍 上一篇文章(java使用freemarker操作word(携带动态表格,图片))https://blog.csdn.net/weixin_45853881/article/details/129298494 紧跟上文&#xff0c…