scikit-learn/sklearn学习|岭回归解读

【1】引言

前序学习进程中,对用scikit-learn表达线性回归进行了初步解读。
线性回归能够将因变量yyy表达成由自变量xxx、线性系数矩阵www和截距bbb组成的线性函数式:
y=∑i=1nwi⋅xi+b=wTx+by=\sum_{i=1}^{n}w_{i}\cdot x_{i}+b=w^T{x}+by=i=1nwixi+b=wTx+b实际上很多时候数据之间不一定是理想化的线性关系,所以需要对线性关系式进行修正,这个时候就可以考虑岭回归。

【2】岭回归的原理

岭回归是修正后的线性回归,所以描述岭回归,必须先会议线性回归。
在用scikit-learn表达线性回归中,我们在代码中使用了一个参数:均方误差。

【2.1】线性回归均方误差

对于线性回归,均方误差的计算式子为:
L(w,b)=∑i=1n(yi−yi^)2=∑i=1n(yi−(wTxi+b))2L(w,b)=\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^2=\sum_{i=1}^{n}(y_{i}-(w^Tx_{i}+b))^2L(w,b)=i=1n(yiyi^)2=i=1n(yi(wTxi+b))2在这里,yyy是第i个样本的真实值,y^\hat{y}y^是第i个样本的预测值。
线性回归的均方误差将真实值和预测值作差后求平方和即可。

【2.2】岭回归均方误差

岭回归相对于线性回归,均方误差的计算式子增加了对参数权重平方和的计算,称之为L2正则化惩罚项:
L(w,b)=∑i=1n(yi−yi^)2+α∑j=1mwj2=∑i=1n(yi−(wTxi+b))2+α∑j=1mwj2L(w,b)=\sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^2+\alpha\sum_{j=1}^{m}w_{j}^{2}=\sum_{i=1}^{n}(y_{i}-(w^Tx_{i}+b))^2+\alpha\sum_{j=1}^{m}w_{j}^{2}L(w,b)=i=1n(yiyi^)2+αj=1mwj2=i=1n(yi(wTxi+b))2+αj=1mwj2在这里,yyy是第i个样本的真实值,y^\hat{y}y^是第i个样本的预测值。
新增加的L2正则化惩罚项α∑j=1mwj2\alpha\sum_{j=1}^{m}w_{j}^{2}αj=1mwj2包括两部分:
第一部分α>0\alpha>0α>0代表正则化强度,可以控制对第二项惩罚的力度;
第二部分∑j=1mwj2\sum_{j=1}^{m}w_{j}^{2}j=1mwj2是所有线性系数的平方和。
α\alphaα越大,惩罚项整体就会越大,这个时候往往需要将wjw_{j}wj调小,也就是通过调整wj→0w_{j}\rightarrow 0wj0来避免过度拟合;
α=0\alpha=0α=0,此时惩罚项不起作用,岭回归退化为线性回归。

【2.3】岭回归的意义

岭回归通过添加惩罚项解决了线性回归至少两个问题:
多重共线性,当变量之间高度相关时,在线性回归计算中可能获得极大的wjw_{j}wj,通过惩罚项可以将这些参数下降到较小的范围,使得模型对数据波动的敏感性降低,从而获得更加稳健的效果;
过拟合,当变量过多或者噪声过大时,线性回归可能过度拟合数据,惩罚项通过将线性系数wjw_{j}wj调小,让模型更倾向于关注整体趋势而非噪音。

【3】总结

岭回归和线性回归都是线性关系式的推演,但岭回归通过L2正则化惩罚项让线性系数wjw_{j}wj保持在合理且较小的范围,让回归模型更稳健、更准确。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/92878.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/92878.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Django的图书馆管理系统的设计与实现

基于Django的图书馆管理系统的设计与实现、

ComfyUI版本更新---解决ComfyUI的节点不兼容问题

前言: 新版本的COMFYUI与节点容易出现不兼容的问题,会导致整个系统崩掉。 目录 一、前期准备工作:虚拟环境配置 为什么需要虚拟环境? 具体操作步骤 二、常见问题解决方案 1、工作流输入输出图像不显示问题 2、工作流不能拖动&#xff0…

生产管理ERP系统|物联及生产管理ERP系统|基于SprinBoot+vue的制造装备物联及生产管理ERP系统设计与实现(源码+数据库+文档)

生产管理ERP系统 目录 基于SprinBootvue的制造装备物联及生产管理ERP系统设计与实现 一、前言 二、系统设计 三、系统功能设计 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍:✌️大厂码农|毕…

Numpy科学计算与数据分析:Numpy数组创建与应用入门

Numpy数组创建实战 学习目标 通过本课程的学习,学员将掌握使用Numpy库创建不同类型的数组的方法,包括一维数组、多维数组、全零数组、全一阵列、空数组等。本课程将通过理论讲解与实践操作相结合的方式,帮助学员深入理解Numpy数组的创建过程…

如何回收内存对象,有哪些回收算法?

它的主要不足有两个: 效率问题,标记和清除两个过程的效率都不高。 空间问题,标记清除之后会产生大量不连续的内存碎片,空间碎片太多可能会导致以后在程序运行过程中需 要分配较大对象时,无法找到足够的连续内存而不得不…

Numpy科学计算与数据分析:Numpy文件操作入门之数组数据的读取和保存

Numpy文件读写实战 学习目标 通过本课程,学员将深入了解如何使用Numpy库进行数组数据的读取和保存,包括文本文件和二进制文件的处理方法。通过本课程的学习,学员将能够熟练掌握Numpy在文件操作中的应用,为数据处理和分析打下坚实…

AutoMQ-Kafka的替代方案实战

AutoMQ无缝兼容kafka,并且借助S3实现数据统一存储。这个确实解决了大问题! 1. Kafka的挑战 横向扩展困难:扩容kafka需要手动创建分区迁移策略和复制分区数据。这个过程不仅风险高、资源密集而且耗时。存储成本高:计算和存储在kaf…

Numpy科学计算与数据分析:Numpy线性代数基础与实践

Numpy线性代数实践:从矩阵乘法到特征值 学习目标 通过本课程,学员将掌握Numpy中处理线性代数问题的基本方法,包括矩阵乘法、求解线性方程组以及计算特征值和特征向量。本课程将通过理论与实践相结合的方式,帮助学员深入理解这些…

CrackMapExec--安装、使用

用途限制声明,本文仅用于网络安全技术研究、教育与知识分享。文中涉及的渗透测试方法与工具,严禁用于未经授权的网络攻击、数据窃取或任何违法活动。任何因不当使用本文内容导致的法律后果,作者及发布平台不承担任何责任。渗透测试涉及复杂技…

深入理解模板方法模式:框架设计的“骨架”艺术

目录 前言 一、模板方法模式的核心思想 二、模板方法模式的结构组成 1. 抽象类(Abstract Class) 2. 具体子类(Concrete Class) 三、C 实现示例:咖啡与茶的制作流程 步骤 1:定义抽象类(饮料…

LinkedList 深度解析:核心原理与实践

文章目录 一、底层数据结构与特性 1. 核心数据结构 2. 关键特性 二、核心操作机制解析 1. 添加元素机制 2. 删除元素机制 三、性能关键点分析 1. 时间复杂度对比 2. 空间开销 四、线程安全解决方案 1. 同步包装器 2. 使用并发集合 五、经典面试题解析 1. ArrayList 和 LinkedLi…

Jmeter性能测试之安装及启动Jmeter

1. 安装JDK Jmeter依赖JDK环境,如果电脑没有JDK,需要安装JDK.如下是Jmeter版本与JDK版本对应关系. 2. Jmeter下载安装 下载链接:https://archive.apache.org/dist/jmeter/binaries/ windows下载.zip压缩包Linux下载.tar压缩包 下一步下一步就行 3. 配置环境变…

ShadowKV 机制深度解析:高吞吐长上下文 LLM 推理的 KV 缓存“影子”方案

背景与核心思想简介 在LLM的长上下文推理中,KV Cache成为影响速度和内存的关键因素。每生成一个新token,模型需要对所有先前token的键(Key)和值(Value)向量执行自注意力计算。传统方法会将所有过去的K/V向量…

spring-ai整合PGVector实现RAG

背景 最近公司的产品和业务线,要求往ai方向靠拢,在研发各种智能体,整理下最近学习的过程,将一部分内容整理出来,分享给需要的同学。 这篇文章将会提供详细的例子以及踩坑说明。主要内容是整合spring-ai,同…

Git 乱码文件处理全流程指南

一、问题背景与核心目标 1.1 问题描述 在 Git 仓库中发现了一个异常乱码文件: "\001\342\240\025\250\325\3738\f\036\035\006\004\240\002\240\002\b\003\004\340\002\340\002\340\002\034\034\001\001\004:\016\020\001\005\016\016\016\211\266\257\211\266…

JavaScript垃圾回收机制

1.垃圾回收的概念 1.1 什么是垃圾回收机制: GC 即 Garbage Collection ,程序工作过程中会产生很多"垃圾",这些垃圾是程序不用的内存或者是之前用过了,以后不会再用的内存空间,而 GC 就是负责回收垃圾的&…

工业相机选择规则

一、相机分辨率选择相机分辨率指的是相机传感器捕捉图像细节的能力,具体来说就是传感器上有效像素的总数量。可以把它理解为构成数字图像的“小方块”(像素)有多少个。工业领域内相机的分辨率的选择根据更具产品需要的精度要求和产品大小来确…

【Web安全】csrf、ssrf和xxe的区别

CSRF、SSRF 和 XXE 是三种不同类型的网络安全漏洞,它们的原理、攻击目标、利用方式和危害场景均有显著区别。以下从核心定义、原理、场景等维度详细对比三者的差异。一、核心定义与原理对比漏洞类型全称核心定义核心原理CSRF跨站请求伪造攻击者诱导用户在已登录的情…

【Lua】XLua一键构建工具

将以下代码放入Editor文件夹&#xff0c;点击菜单栏的XLua/一键生成代码和热补丁 即可。using System; using System.Collections.Generic; using System.Linq; using System.Reflection; using UnityEditor; using UnityEngine;/// <summary> /// XLua自动化构建工具 //…

20250808:EasyGBS 对接大华 ICC 平台问题处理

最近有个现场在对接大华 ICC 平台时&#xff0c;客户反馈&#xff1a;EasyGBS 级联成功&#xff0c;但 ICC 显示下级离线。EasyGBS 成功对接过很多家国标平台&#xff0c;但这种情况确实少见。我们远程过去确认配置无误后&#xff0c;就进行了抓包&#xff0c;拿到包我就纳闷了…