L1、L2正则化的几何解释

L1、L2正则化的几何解释

bicheng/2025/8/3 16:27:40/文章来源:https://blog.csdn.net/weixin_54607024/article/details/149861601

L2正则化:

图中用几何方式形象地解释了 Ridge 回归（L2正则化）的原理。

① 阴影圆：可以理解为（w1^2 + w2^2）≤R^2，圆周表示目标函数的约束线，这个圆表示了我们的参数 (w1,w2)可以活动的范围。

为什么要约束？ 因为如果权重太大，模型在训练集上可能表现极好（拟合很好），但在新数据上的表现会大幅下降（过拟合）。
R 越小意味着什么？圆变小，给权重的空间就越小，惩罚越强，模型更简单，更不容易过拟合。R 越大，模型约等于普通线性回归（无正则化）。

② 最小化成本点（最小二乘估计点）：在图中心的黑点，就是普通线性回归的最小二乘解，也就是“拟合训练数据最好的点”

用等高线（椭圆）表现：图里一圈一圈的椭圆，代表对于不同 (w1,w2)参数组合的损失（成本）大小。
- 离中心越近，损失越小（拟合训练集效果越好）。
- 离中心越远，损失越大（拟合效果变差）。
过拟合的风险：最小化成本点其实对训练集来说是最优解，但往往会过拟合，也就是在新数据上表现很差。所以我们不总是选这个点作为模型的最终解。

我们的目标：不是单纯让损失最小，而是让损失和权重大小都要“

约束下的最优解是什么？

如果没有约束，解就在最小化成本点（中心）。
有了约束之后，我们只能在圆内找解：我们希望找一个既让损失足够小，又不会让参数过大（也就是不过拟合）。

最终解的位置：

这就是图里圆和某个等高线“刚好相切”的那个点，既满足了“损失尽量小”，又不超出圆圈（不让参数过大）。这个点就是带有L2惩罚的解。

L1正则化:

L1, L2 的区别

对于 L2 来说，限定区域是圆，这样，得到的解 w1 或 w2 为 0 的概率很小，很大概率是非零的。

对于 L1 来说，限定区域是正方形，方形的最优解位置通常是在是尖锐点，这从视觉和常识上来看是很容易理解的。也就是说，方形的凸点会更接近最优解对应的 w 位置，而从图中我们可以知道凸点处必有 w1 或 w2 为 0。这样，得到的解 w1 或 w2 为零的概率就很大了。

reference:

以几何思维理解L1&L2正则化 - 简书

(5 封私信) 【通俗易懂】机器学习中 L1 和 L2 正则化的直观解释 - 知乎

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/bicheng/91805.shtml
繁体地址，请注明出处：http://hk.pswp.cn/bicheng/91805.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【学习笔记】Java并发编程的艺术——第1章并发编程的挑战

【学习笔记】Java并发编程的艺术——第1章并发编程的挑战

第1章并发编程的挑战 1.1 上下文切换即使是单核处理器也支持多线程执行代码，CPU给每个线程分配CPU时间片实现多线程，而每个时间片一般是几十毫秒，所以多个线程感觉是同时执行的但同一个核切换线程执行时会保存运行状态，以便下次…

阅读更多...

leecode3 无重复元素的最长子串

leecode3 无重复元素的最长子串

我的思路原始代码我发现我虽然解决问题了，但是我的思路不简洁，不明白。这个题本质上还是滑动窗口的问题。具体思路为先定义两个指针，对应滑动窗口的两个边界关键是：定义一个集合，来判断这个窗口中的元素是否存在重…

阅读更多...

【嵌入式汇编基础】-ARM架构基础（三）

【嵌入式汇编基础】-ARM架构基础（三）

ARM架构基础（三）文章目录 ARM架构基础（三） 7、AArch64 执行状态 7.3 程序计数器 7.4 堆栈指针 7.5 零寄存器 7.6 链接寄存器 7.7 帧指针 7.8 平台寄存器 (x18) 7.9 过程内调用寄存器 7.10 SIMD 和浮点寄存器 7.11 系统寄存器 7.13 PSTATE 7、AArch64 执行状态 7.3 程序计…

阅读更多...

[buuctf-misc]喵喵喵

[buuctf-misc]喵喵喵

m题目在线评测BUUCTF 是一个 CTF 竞赛和训练平台，为各位 CTF 选手提供真实赛题在线复现等服务。https://buuoj.cn/challenges#%E5%96%B5%E5%96%B5%E5%96%B5BUUCTF 是一个 CTF 竞赛和训练平台，为各位 CTF 选手提供真实赛题在线复现等服务。https://buuoj.…

阅读更多...

Vue 详情模块 2

Vue 详情模块 2

Vue 渐进式JavaScript 框架基于Vue2的移动端项目：详情基础内容，日期及电影描述目录详情详情基础内容初始化与赋值渲染基础内容详情样式日期处理安装moment 定义过滤器使用过滤器电影描述总结详情详情基础内容初始化与赋值 …

阅读更多...

【MODIS数据】MYD03

【MODIS数据】MYD03

🌍 遥感数据的“导航仪”：深入解析MYD03地理定位产品在卫星遥感领域，精确的地理定位是数据应用的基础。作为Aqua卫星中分辨率成像光谱仪（MODIS）的核心支撑产品，MYD03虽不如地表温度或植被指数产品知名&am…

阅读更多...

如何填写PDF表格的例子

如何填写PDF表格的例子

实际应用场景中，我们会遇到需要根据会话内容自动填写表格的情况，比如：pdf 表格。假设根据会话内容已经获得相关信息，下面以填写个人信息为例来说明。个人信息表格.pdf填写后的效果：填写代码如下：from pdfrw…

阅读更多...

2023年影响重大的网络安全典型案例

2023年影响重大的网络安全典型案例

以下是2023年影响重大的网络安全典型案例，按时间顺序梳理事件经过及技术细节：---一、DeFi协议攻击：dForce借贷协议遭入侵（2023年4月）** - 时间线： - 4月19日08:58：黑客开始攻击Lendf.Me合约&…

阅读更多...

Vue 响应式基础全解析2

Vue 响应式基础全解析2

DOM更新时机修改响应式状态后，DOM更新不是同步的。Vue会缓冲所有修改，在"next tick"周期中统一更新，确保每个组件只更新一次。如需在DOM更新后执行代码，可使用nextTick()： import {nextTick } from vueasync function increment() {count.value++

阅读更多...

【黑马SpringCloud微服务开发与实战】（九）elasticsearch基础

【黑马SpringCloud微服务开发与实战】（九）elasticsearch基础

1. 认识elasticsearch2. 认识和安装ES主播这里之前已经安装好了，资料包里面有镜像 docker run -d \--name es \-e "ES_JAVA_OPTS-Xms512m -Xmx512m" \-e "discovery.typesingle-node" \-v es-data:/usr/share/elasticsearch/data \-v es-plugin…

阅读更多...

由浅入深地讲清楚浏览器缓存

由浅入深地讲清楚浏览器缓存

一、什么是浏览器缓存？（入门级） 1. 浏览器缓存的定义浏览器缓存就是：浏览器把之前请求过的资源保存起来，下次访问同样的资源时可以直接用本地副本，而不是重新请求服务器。举个生活例子： 你第一次…

阅读更多...

Linux I/O 多路复用机制对比分析：poll/ppoll/epoll/select

Linux I/O 多路复用机制对比分析：poll/ppoll/epoll/select

Linux I/O 多路复用机制对比分析：poll/ppoll/epoll/select 1. 概述 I/O 多路复用是现代高性能网络编程的核心技术，它允许单个线程同时监视多个文件描述符的状态变化，从而实现高效的并发处理。Linux 提供了多种 I/O 多路复用机制&#xff0c…

阅读更多...

高防服务器租用：保障数据安全

高防服务器租用：保障数据安全

您的网络速度是否卡顿，业务是否经常受到网络攻击的威胁呢？别担心，高防服务器租用能够帮助你解决这些困扰！高防服务器租用拥有着卓越的防御能力，可以帮助企业抵御各种网络攻击，能够轻松化解各种超大流量的网…

阅读更多...

基于python多光谱遥感数据处理、图像分类、定量评估及机器学习方法应用

基于python多光谱遥感数据处理、图像分类、定量评估及机器学习方法应用

基于卫星或无人机平台的多光谱数据在地质、土壤调查和农业等应用领域发挥了重要作用，在地质应用方面，综合Aster的短波红外波段、landsat热红外波段等多光谱数据，可以通过不同的多光谱数据组合，协同用于矿物信息有效提取。第一&…

阅读更多...

CSS content-visibility：提升页面渲染性能的 “智能渲染开关”

CSS content-visibility：提升页面渲染性能的 “智能渲染开关”

在前端开发中，你是否遇到过这样的问题：页面包含大量 DOM 元素（如长列表、复杂表格）时，滚动变得卡顿，交互响应迟缓？这往往是因为浏览器需要不断渲染屏幕外的元素，浪费了大量计算资源。…

阅读更多...

Javascript面试题及详细答案150道之（016-030）

Javascript面试题及详细答案150道之（016-030）

《前后端面试题》专栏集合了前后端各个知识模块的面试题，包括html，javascript，css，vue，react，java，Openlayers，leaflet，cesium，mapboxGL，threejs&…

阅读更多...

仿真电路：（十七下）DC-DC升压压电路原理简单仿真

仿真电路：（十七下）DC-DC升压压电路原理简单仿真

1.前言升压的环境用的没降压的多，但是升压会用在LED的很多电路上，所以理解一下原理 2.DC-DC升压原理简单仿真升压原理下面还是对升压进行简单的仿真拓扑结构以及原理和降压还是很相似的，只是位置不太一样，过程推导就不推导…

阅读更多...

ros2--source

ros2--source

setup脚本类型 install下面会有几个setup.xxx的shell脚本。 setup.bash setup.ps1 setup.sh setup.zsh 什么区别呢文件名 Shell 类型适用场景 setup.bash Bash (Linux/macOS) 标准 Linux/macOS 终端（默认使用） setup.sh 通用 Shell 兼容性更广，但功能可能受限 setu…

阅读更多...

40.MySQL事务

40.MySQL事务

1.事务的作用事务用于保证数据的一致性，它由一组相关的 dml (update delete insert) 语句组成，该组的 dml (update delete insert) 语句要么全部成功，要么全部失败。如：转账就要用事务来处理，用以保证数据的一致性。假…

阅读更多...

java导入pdf（携带动态表格，图片，纯java不需要模板）

java导入pdf（携带动态表格，图片，纯java不需要模板）

java导出pdf文件一、介绍二、准备三、实现效果四、代码一、介绍上一篇文章（java使用freemarker操作word（携带动态表格，图片））https://blog.csdn.net/weixin_45853881/article/details/129298494 紧跟上文&#xff0c…

阅读更多...

最新文章