机器学习:欠拟合、过拟合、正则化

本文目录:

  • 一、欠拟合
  • 二、过拟合
  • 三、拟合问题原因及解决办法
  • 四、正则化:尽量减少高次幂特征的影响
    • (一)L1正则化
    • (二)L2正则化
    • (三)L1正则化与L2正则化的对比
  • 五、正好拟合代码(附赠)

一、欠拟合

欠拟合:一个假设 在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据 ,此时认为这个假设出现了欠拟合的现象。(模型过于简单)

欠拟合代码实现:

例:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error  # 计算均方误差
from sklearn.model_selection import train_test_splitdef dm01_欠拟合():# 1. 准备x, y数据, 增加上噪声.# 用于设置随机数生成器的种子(seed), 种子一样, 每次生成相同序列.np.random.seed(666)# x: 随机数, 范围为 (-3, 3), 100个.x = np.random.uniform(-3, 3, size=100)# loc: 均值, scale: 标准差, normal: 正态分布.y = 0.5 * x ** 2 + x + 2 + np.random.normal(0, 1, size=100)# 2. 实例化 线性回归模型.estimator = LinearRegression()# 3. 训练模型X = x.reshape(-1, 1)estimator.fit(X, y)# 4. 模型预测.y_predict = estimator.predict(X)print("预测值:", y_predict)# 5. 计算均方误差 => 模型评估print(f'均方误差: {mean_squared_error(y, y_predict)}')# 6. 画图plt.scatter(x, y)           # 散点图plt.plot(x, y_predict, color='r')   # 折线图(预测值, 拟合回归线)plt.show()                  # 具体的绘图if __name__ == '__main__':dm01_欠拟合()

运行结果:
在这里插入图片描述

二、过拟合

过拟合:一个假设 在训练数据上能够获得比其他假设更好的拟合, 但是在测试数据集上却不能很好地拟合数据 (体现在准确率下降),此时认为这个假设出现了过拟合的现象。

过拟合代码实现:

例:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error  # 计算均方误差
from sklearn.model_selection import train_test_splitdef dm03_过拟合():# 1. 准备x, y数据, 增加上噪声.# 用于设置随机数生成器的种子(seed), 种子一样, 每次生成相同序列.np.random.seed(666)# x: 随机数, 范围为 (-3, 3), 100个.x = np.random.uniform(-3, 3, size=100)# loc: 均值, scale: 标准差, normal: 正态分布.y = 0.5 * x ** 2 + x + 2 + np.random.normal(0, 1, size=100)# 2. 实例化 线性回归模型.estimator = LinearRegression()# 3. 训练模型X = x.reshape(-1, 1)# hstack() 函数用于将多个数组在行上堆叠起来, 即: 数据增加高次项.X3 = np.hstack([X, X**2, X**3, X**4, X**5, X**6, X**7, X**8, X**9, X**10])estimator.fit(X3, y)# 4. 模型预测.y_predict = estimator.predict(X3)print("预测值:", y_predict)# 5. 计算均方误差 => 模型评估print(f'均方误差: {mean_squared_error(y, y_predict)}')# 6. 画图plt.scatter(x, y)  # 散点图# sort()  该函数直接返回一个排序后的新数组。# numpy.argsort()   该函数返回的是数组值从小到大排序时对应的索引值plt.plot(np.sort(x), y_predict[np.argsort(x)], color='r')  # 折线图(预测值, 拟合回归线)plt.show()  # 具体的绘图if __name__ == '__main__':dm03_过拟合()

运行结果:
在这里插入图片描述

三、拟合问题原因及解决办法

1.欠拟合产生原因: 学习到数据的特征过少。

解决办法:

1)添加其他特征项,有时出现欠拟合是因为特征项不够导致的,可以添加其他特征项来解决。

2)添加多项式特征,模型过于简单时的常用套路,例如将线性模型通过添加二次项或三次项使模型泛化能力更强。

2.过拟合产生原因: 原始特征过多,存在一些嘈杂特征, 模型过于复杂是因为模型尝试去兼顾所有测试样本。

解决办法:

1)重新清洗数据,导致过拟合的一个原因有可能是数据不纯,如果出现了过拟合就需要重新清洗数据。

2)增大数据的训练量,还有一个原因就是我们用于训练的数据量太小导致的,训练数据占总数据的比例过小。

3)正则化

4)减少特征维度。

四、正则化:尽量减少高次幂特征的影响

在这里插入图片描述

(一)L1正则化

LASSO回归: from sklearn.linear_model import Lasso
在这里插入图片描述
代码如下:

from sklearn.linear_model import Lasso  # L1正则
from sklearn.linear_model import Ridge  # 岭回归 L2正则def dm04_模型过拟合_L1正则化():# 1. 准备x, y数据, 增加上噪声.# 用于设置随机数生成器的种子(seed), 种子一样, 每次生成相同序列.np.random.seed(666)# x: 随机数, 范围为 (-3, 3), 100个.x = np.random.uniform(-3, 3, size=100)# loc: 均值, scale: 标准差, normal: 正态分布.y = 0.5 * x ** 2 + x + 2 + np.random.normal(0, 1, size=100)# 2. 实例化L1正则化模型, 做实验: alpha惩罚力度越来越大, k值越来越小.estimator = Lasso(alpha=0.005)# 3. 训练模型X = x.reshape(-1, 1)# hstack() 函数用于将多个数组在行上堆叠起来, 即: 数据增加高次项.X3 = np.hstack([X, X**2, X**3, X**4, X**5, X**6, X**7, X**8, X**9, X**10])estimator.fit(X3, y)print(f'权重: {estimator.coef_}')# 4. 模型预测.y_predict = estimator.predict(X3)print("预测值:", y_predict)# 5. 计算均方误差 => 模型评估print(f'均方误差: {mean_squared_error(y, y_predict)}')# 6. 画图plt.scatter(x, y)  # 散点图# sort()  该函数直接返回一个排序后的新数组。# numpy.argsort()   该函数返回的是数组值从小到大排序时对应的索引值plt.plot(np.sort(x), y_predict[np.argsort(x)], color='r')  # 折线图(预测值, 拟合回归线)plt.show()  # 具体的绘图if __name__ == '__main__':dm04_模型过拟合_L1正则化()

(二)L2正则化

Ridge回归: from sklearn.linear_model import Ridge
在这里插入图片描述
代码如下:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn.metrics import mean_squared_error  # 计算均方误差
from sklearn.model_selection import train_test_splitdef dm05_模型过拟合_L2正则化():# 1. 准备x, y数据, 增加上噪声.# 用于设置随机数生成器的种子(seed), 种子一样, 每次生成相同序列.np.random.seed(666)# x: 随机数, 范围为 (-3, 3), 100个.x = np.random.uniform(-3, 3, size=100)# loc: 均值, scale: 标准差, normal: 正态分布.y = 0.5 * x ** 2 + x + 2 + np.random.normal(0, 1, size=100)# 2. 实例化L2正则化模型, 做实验: alpha惩罚力度越来越大, k值越来越小.estimator = Ridge(alpha=0.005)# 3. 训练模型X = x.reshape(-1, 1)# hstack() 函数用于将多个数组在行上堆叠起来, 即: 数据增加高次项.X3 = np.hstack([X, X**2, X**3, X**4, X**5, X**6, X**7, X**8, X**9, X**10])estimator.fit(X3, y)print(f'权重: {estimator.coef_}')# 4. 模型预测.y_predict = estimator.predict(X3)print("预测值:", y_predict)# 5. 计算均方误差 => 模型评估print(f'均方误差: {mean_squared_error(y, y_predict)}')# 6. 画图plt.scatter(x, y)  # 散点图# sort()  该函数直接返回一个排序后的新数组。# numpy.argsort()   该函数返回的是数组值从小到大排序时对应的索引值plt.plot(np.sort(x), y_predict[np.argsort(x)], color='r')  # 折线图(预测值, 拟合回归线)plt.show()  # 具体的绘图if __name__ == '__main__':# dm04_模型过拟合_L1正则化()dm05_模型过拟合_L2正则化()

(三)L1正则化与L2正则化的对比

在这里插入图片描述

五、正好拟合代码(附赠)

例:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as pltdef dm02_模型ok():# 1. 准备x, y数据, 增加上噪声.# 用于设置随机数生成器的种子(seed), 种子一样, 每次生成相同序列.np.random.seed(666)# x: 随机数, 范围为 (-3, 3), 100个.x = np.random.uniform(-3, 3, size=100)# loc: 均值, scale: 标准差, normal: 正态分布.y = 0.5 * x ** 2 + x + 2 + np.random.normal(0, 1, size=100)# 2. 实例化 线性回归模型.estimator = LinearRegression()# 3. 训练模型X = x.reshape(-1, 1)X2 = np.hstack([X, X ** 2])estimator.fit(X2, y)# 4. 模型预测.y_predict = estimator.predict(X2)print("预测值:", y_predict)# 5. 计算均方误差 => 模型评估print(f'均方误差: {mean_squared_error(y, y_predict)}')# 6. 画图plt.scatter(x, y)  # 散点图# sort()  该函数直接返回一个排序后的新数组。# numpy.argsort()   该函数返回的是数组值从小到大排序时对应的索引值plt.plot(np.sort(x), y_predict[np.argsort(x)], color='r')  # 折线图(预测值, 拟合回归线)# plt.plot(x, y_predict)plt.show()  # 具体的绘图

运行结果:
在这里插入图片描述
今天的分享到此结束。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/85213.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux命令之ausearch命令

一、命令简介 ausearch 是 Linux 审计系统 (auditd) 中的一个实用工具,用于搜索审计日志中的事件。它是审计框架的重要组成部分,可以帮助系统管理员分析系统活动和安全事件。 二、使用示例 1、安装ausearch命令 Ubuntu系统安装ausearch命令,安装后启动服务。 root@testser…

mac电脑安装nvm

方案一、常规安装 下载安装脚本:在终端中执行以下命令来下载并运行 NVM 的安装脚本3: bash curl -o- https://raw.githubusercontent.com/creationix/nvm/v0.39.5/install.sh | bash配置环境变量:安装完成后,需要配置环境变量。如…

Excel 操作 转图片,转pdf等

方式一 spire.xls.free&#xff08;没找设置分辨率的方法&#xff09; macOs开发Java GUI程序提示缺少字体问题解决 Spire.XLS&#xff1a;一款Excel处理神器_spire.xls免费版和收费版的区别-CSDN博客 官方文档 Spire.XLS for Java 中文教程 <dependency><groupI…

oracle goldengate实现远程抽取postgresql 到 postgresql的实时同步【绝对无坑版,亲测流程验证】

oracle goldengate实现postgresql 到 postgresql的实时同步 源端&#xff1a;postgresql1 -> postgresql2 流复制主备同步 目标端&#xff1a;postgresql 数据库版本&#xff1a;postgresql 12.14 ogg版本&#xff1a;21.3 架构图&#xff1a; 数据库安装以及流复制主备…

2.从0开始搭建vue项目(node.js,vue3,Ts,ES6)

从“0到跑起来一个 Vue 项目”&#xff0c;重点是各个工具之间的关联关系、职责边界和技术演化脉络。 从你写代码 → 到代码能跑起来 → 再到代码可以部署上线&#xff0c;每一步都有不同的工具参与。 &#x1f63a;&#x1f63a;1. 安装 Node.js —— 万事的根基 Node.js 是…

MQTT的Thingsboards的使用

访问云服务 https://thingsboard.cloud/ 新建一个设备 弹出 默认是mosquittor的客户端。 curl -v -X POST http://thingsboard.cloud/api/v1/tnPrO76AxF3TAyOblf9x/telemetry --header Content-Type:application/json --data "{temperature:25}" 换成MQTTX的客户…

金砖国家人工智能高级别论坛在巴西召开,华院计算应邀出席并发表主题演讲

当地时间5月20日&#xff0c;由中华人民共和国工业和信息化部&#xff0c;巴西发展、工业、贸易与服务部&#xff0c;巴西公共服务管理和创新部以及巴西科技创新部联合举办的金砖国家人工智能高级别论坛&#xff0c;在巴西首都巴西利亚举行。 中华人民共和国工业和信息化部副部…

BLE协议全景图:从0开始理解低功耗蓝牙

BLE(Bluetooth Low Energy)作为一种针对低功耗场景优化的通信协议,已经广泛应用于智能穿戴、工业追踪、智能家居、医疗设备等领域。 本文是《BLE 协议实战详解》系列的第一篇,将从 BLE 的发展历史、协议栈结构、核心机制和应用领域出发,为后续工程实战打下全面认知基础。 …

表单校验代码和树形结构值传递错误解决

表单校验代码&#xff0c;两种方式校验&#xff0c;自定义的一种校验&#xff0c;与element-ui组件原始的el-form表单的校验不一样&#xff0c;需要传递props和rules过去校验 const nextStep () > {const data taskMsgInstance.value.formDataif(data.upGradeOrg ) {elm…

vscode 配置 QtCreat Cmake项目

1.vscode安装CmakeTool插件并配置QT中cmake的路径&#xff0c;不止这一处 2.cmake生成器使用Ninja&#xff08;Ninja在安装QT时需要勾选&#xff09;&#xff0c;可以解决[build] cc1plus.exe: error: too many filenames given; type ‘cc1plus.exe --help’ for usage 编译时…

关于数据仓库、数据湖、数据平台、数据中台和湖仓一体的概念和区别

我们谈论数据中台之前&#xff0c; 我们也听到过数据平台、数据仓库、数据湖、湖仓一体的相关概念&#xff0c;它们都与数据有关系&#xff0c;但他们和数据中台有什么样的区别&#xff0c; 下面我们将围绕数据平台、数据仓库、数据湖和数据中台的区别进行介绍。 一、相关概念…

WIN11+eclipse搭建java开发环境

环境搭建&#xff08;WIN11ECLIPSE&#xff09; 安装JAVA JDK https://www.oracle.com/cn/java/technologies/downloads/#jdk24安装eclipse https://www.eclipse.org/downloads/ 注意&#xff1a;eclipse下载时指定aliyun的软件源&#xff0c;后面安装会快一些。默认是jp汉化e…

通义灵码深度实战测评:从零构建智能家居控制中枢,体验AI编程新范式

一、项目背景&#xff1a;零基础挑战全栈智能家居系统 目标&#xff1a;开发具备设备控制、环境感知、用户习惯学习的智能家居控制中枢&#xff08;PythonFlaskMQTTReact&#xff09; 挑战点&#xff1a; 需集成硬件通信(MQTT)、Web服务(Flask)、前端交互(React) 调用天气AP…

【Python进阶】CPython

目录 🌟 前言🏗️ 技术背景与价值🩹 当前技术痛点🛠️ 解决方案概述👥 目标读者说明🧠 一、技术原理剖析📊 核心架构图解💡 核心作用讲解🔧 关键技术模块说明⚖️ Python实现对比🛠️ 二、实战演示⚙️ 环境配置要求💻 核心代码实现案例1:查看字节码案例…

Hive中资源优化方法的详细说明

在Hive中&#xff0c;资源优化的核心目标是合理分配集群资源&#xff08;如内存、CPU、任务并行度等&#xff09;&#xff0c;避免资源竞争和浪费&#xff0c;提升查询效率。以下是资源优化的具体方法&#xff0c;涵盖 YARN资源配置、任务并行度、内存管理、JVM重用、推测执行 …

流媒体协议分析:流媒体传输的基石

在流媒体传输过程中&#xff0c;协议的选择至关重要&#xff0c;它决定了数据如何封装、传输和解析&#xff0c;直接影响着视频的播放质量和用户体验。本文将深入分析几种常见的流媒体传输协议&#xff0c;探讨它们的特点、应用场景及优缺点。 协议分类概述 流媒体传输协议根据…

GitHub 趋势日报 (2025年05月29日)

&#x1f4ca; 由 TrendForge 系统生成 | &#x1f310; https://trendforge.devlive.org/ &#x1f310; 本日报中的项目描述已自动翻译为中文 &#x1f4c8; 今日获星趋势图 今日获星趋势图 1864 agenticSeek 753 langflow 749 n8n 736 prompt-eng-interactive-tutorial 42…

Jenkins-Pipeline:学习笔记

Jenkins-Pipeline:学习笔记 在 DevOps 领域中,Pipeline(流水线) 是实现持续集成(CI)和持续部署(CD)的核心机制。学习 Pipeline 通常需要从以下几个方面入手,涵盖基础概念、工具使用、语法规则、实践优化等 一、Pipeline 基础概念 什么是 Pipeline? 流水线是将软件交…

内存管理 : 04段页结合的实际内存管理

一、课程核心主题引入 这一讲&#xff0c;我要给大家讲的是真正的内存管理&#xff0c;也就是段和页结合在一起的内存管理方式。之前提到过&#xff0c;我们先学习了分段管理内存的工作原理&#xff0c;知道操作系统采用分段的方式&#xff0c;让用户程序能以分段的结构进行编…

RAID磁盘阵列配置

RAID磁盘阵列配置 文章目录 RAID磁盘阵列配置一、磁盘管理其他相关命令1.fsck-检查文件的正确性2.dd-建立和使用交换文件3.mkswap-建立和设置SWAP交换分区 二、RAID配置 一、磁盘管理其他相关命令 1.fsck-检查文件的正确性 [rootlocalhost ~]# fsck -aC /dev/sda1 //检查文…