机器学习——K 折交叉验证(K-Fold Cross Validation),案例:逻辑回归 交叉寻找最佳惩罚因子C


什么是交叉验证?

交叉验证是一种将原始数据集划分为若干个子集,反复训练和验证模型的策略。

交叉验证(Cross-Validation)适用于你在模型调参(如逻辑回归中的 C

最常用的:K 折交叉验证(K-Fold Cross Validation)

将数据集平均分成 K 份,每次取其中 1 份做验证,剩下的 K-1 份做训练,重复 K 次,最终将 K 次的结果取平均。

图示流程(以 K=4 举例)

轮次训练集验证集
1[2,3,4][1]
2[1,3,4][2]
3[1,2,4][3]
4[1,2,3][4]

最后将 4 次的验证结果平均,得到模型在未见数据上的稳定表现。


为什么要使用交叉验证?

作用说明
✅ 稳定评估模型表现解决只依赖单一测试集带来的评估波动问题
✅ 防止过拟合多次训练验证,有助于检测模型是否泛化能力不足
✅ 用于超参数选择常用于网格搜索、正则化参数调优(如逻辑回归中的 C)

什么时候该用交叉验证?

场景是否推荐使用交叉验证
数据量较小✅ 强烈建议
不平衡分类问题✅ 建议配合 StratifiedKFold
模型调参(如 C、k、深度)✅ 必用
数据量极大(上百万)❌ 考虑分批验证或子集评估

代码使用:

from sklearn.model_selection import cross_val_scorecross_val_score(estimator, X, y=None, *, scoring=None, cv=None,n_jobs=None, verbose=0, fit_params=None, pre_dispatch='2*n_jobs',error_score=np.nan)

参数详解:

参数名类型说明
estimator模型对象

要评估的模型,例如 LogisticRegression()RandomForestClassifier()

‘model = LogisticRegression()’后直接传入‘model’即可

Xndarray / DataFrame特征数据集
yarray-like目标标签(监督学习必须)
scoringstr 或 callable指定评估指标(如 accuracy, recall, f1, roc_auc 等)
cvint 或 交叉验证对象交叉验证折数,如 cv=5;或 StratifiedKFold, KFold 等对象
n_jobsint并行执行的任务数:-1 使用所有核心,1 表示不并行
verboseint控制打印的详细程度(0为不输出,越大越详细)
fit_paramsdict要传递给 estimator.fit() 的额外参数(少用)
pre_dispatchstr控制预分发任务数,默认 '2*n_jobs',通常无需改动
error_score‘raise’ 或 float出错时返回分数,或抛异常。默认返回 NaN


实战案例:用交叉验证寻找最优惩罚因子 C

信用卡欺诈检测数据集 creditcard.csv

  • 数据来源信用卡欺诈检测实战数据集_数据集-阿里云天池https://tianchi.aliyun.com/dataset/101562?accounttraceid=c1258603818f44d6a57fe125248cc969rkgu

  • 样本总数:284,807 条

  • 特征数:30(28个匿名特征 + 金额 Amount + 时间 Time

  • 目标变量Class(0=正常交易,1=欺诈交易)

import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression  # 导入逻辑回归模型
from sklearn.model_selection import train_test_split, cross_val_score  # 用于数据拆分和交叉验证
from sklearn.preprocessing import StandardScaler  # 用于数据标准化处理
from sklearn import metrics  # 用于模型评估指标计算data = pd.read_csv('creditcard.csv')# 初始化标准化器,对交易金额(Amount)进行标准化处理
scaler = StandardScaler()
data['Amount'] = scaler.fit_transform(data[['Amount']])     # 准备特征数据X(排除时间和目标变量)和目标变量y(欺诈标签,1表示欺诈,0表示正常)
X = data.drop(["Time","Class"], axis=1)
y = data.Class# 将数据拆分为训练集(70%)和测试集(30%),设置随机种子保证结果可复现
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100)#----------------------------------------------------------------------------------------
# 以下部分用于寻找最优的正则化参数C
c_range = [0.01, 0.1, 1, 10, 100]   # 定义要尝试的正则化参数C的取值范围(C越小,正则化强度越大)
scores = []   # 存储不同C值对应的交叉验证平均召回率
for c in c_range:model = LogisticRegression(C=c, penalty='l2', solver='lbfgs', max_iter=1000)   # 初始化逻辑回归模型,指定正则化参数C、L2正则化、求解器和最大迭代次数score = cross_val_score(model, X_train, y_train, cv=8, scoring='recall')   # 使用8折交叉验证,计算模型在训练集上的召回率recallscore_mean = sum(score) / len(score)   # 计算交叉验证召回率的平均值scores.append(score_mean)   # 将平均召回率添加到列表中print(score_mean)
# 找到最大平均召回率对应的C值,作为最优惩罚因子
best_c = c_range[np.argmax(scores)]   #argmax返回数组中最大值所在的索引位置
print(f'最优惩罚因子为:{best_c}')
#----------------------------------------------------------------------------------------# 使用最优惩罚因子训练最终的逻辑回归模型
model = LogisticRegression(C=best_c, penalty='l2', solver='lbfgs')
model.fit(X_train, y_train)

K-Fold Cross Validation 背后的原理(做了什么)

cross_val_score(model, X, y, cv=8) 等价于以下操作:

  1. 将数据按 8 等份分割

  2. 第一次拿前 7 份训练,第 8 份验证 → 计算指标

  3. 第二次拿 1,2,3,4,5,6,8 训练,第 7 份验证 → 计算指标

  4. ...

  5. 得到 8 个指标结果,返回组成数组

自动完成了分割、训练、预测和评分


常见扩展:StratifiedKFold(保持类别比例)

对于不平衡数据(如欺诈检测),StratifiedKFold 是更合适的选择,它能在每一折中保持正负样本比例一致。

from sklearn.model_selection import StratifiedKFoldskf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
scores = cross_val_score(model, X_train, y_train, cv=skf, scoring='recall')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/917393.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/917393.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

蓝桥杯----串口

(五)、串口1、串口通信简介制定通信的规则,通信双方按照协议规则进行数据收发,将一个设备的数据传送到另一个设备,扩展硬件系统,串口USART有两根通信线Tx、Rx,可同时双向通信,称之为…

错误: 找不到或无法加载主类 原因: java.lang.ClassNotFoundException

背景: 代码没有更改,主类位置也没有移动,运行时突然报找不到或无法加载主类的错误 错误: 找不到或无法加载主类 原因: java.lang.ClassNotFoundException编译器上方显示 Java file is located outside of the module source root so it wont …

Lock 接口及实现类详解:从 ReentrantLock 到并发场景实践

在 Java 并发编程中,除了synchronized关键字,java.util.concurrent.locks.Lock接口及其实现类是另一种重要的同步机制。自 JDK 5 引入以来,Lock接口凭借灵活的 API 设计、可中断的锁获取、公平性控制等特性,成为复杂并发场景的首选…

「iOS」————SideTable

iOS学习前言sideTableSlideTablesSideTableBufSideTable前言 我们在上一篇中,简单的介绍了weak的实现原理。其中弱引用表就是存储在SideTable中的,这里我们来学习了解一下SideTable sideTable sideTable主要用于存储和管理对象的额外信息,…

【PHP】CURL请求第三方API接口

当我们需要调用第三方接口时,就需要使用CURL,通过CURL操作去请求第三方API接口,有的是通过POST方式,有的是通过GET方式,下面介绍一个通用的使用CURL调用API接口的方法。一、CURL操作共两个方法,分别是CURL操…

对于考研数学的理解

文章目录高等数学总结补充说明1. 微分方程与无穷级数的特殊性2. 隐藏的逻辑链条3. 向量代数的桥梁作用核心框架为什么这样设计?结论线性代数核心逻辑框架各讲之间的本质联系1. 行列式 → 矩阵2. 矩阵 → 向量组3. 矩阵 向量组 → 线性方程组4. 矩阵 → 特征值与特征…

基于 Hadoop 生态圈的数据仓库实践 —— OLAP 与数据可视化(四)

目录 四、数据可视化与 Hue 简介 1. 数据可视化简介 (1)数据可视化的重要性 (2)数据可视化的用途 (3)实施数据可视化需要考虑的问题 (4)几种主要的数据可视化工具 2. Hue 简介…

HarmonyOS 开发:基于 ArkUI 实现复杂表单验证的最佳实践

摘要 在现代应用开发中,表单是最常见的交互方式之一。不管是用户注册、信息录入,还是登录验证,表单的可靠性直接影响用户体验。而在鸿蒙 ArkUI 开发中,虽然表单结构清晰,但要实现 复杂验证(比如&#xff1a…

高效游戏状态管理:使用双模式位运算与数学运算

在游戏开发中,状态管理是一个核心问题。无论是任务系统、成就系统还是玩家进度跟踪,我们都需要高效地存储和查询大量状态。本文将深入分析一个创新的游戏状态管理工具类 GameStateUtil,它巧妙结合了位运算和数学运算两种模式,在存…

linux-process-control

Linux进程控制 1. 进程终止 1.1. 进程终止的本质是回收资源 1.1 释放资源 内存资源: 释放进程的地址空间(mm_struct),包括代码段、数据段、堆、栈等,通过写时复制(CoW)共享的页会减少引用计数&a…

Autoswagger:揭露隐藏 API 授权缺陷的开源工具

Autoswagger 是一款免费的开源工具,用于扫描 OpenAPI 文档中列出的 API,查找授权漏洞。 即使在拥有成熟安全团队的大型企业中,这类漏洞仍然很常见,而且尤其危险,因为即使技术水平不高的人也能利用它们。 Autoswagger…

Golang 语言 Channel 的使用方式

一、无缓存 channel无缓冲channel 可用于两个goroutine 之间 传递信号,比如以下示例:顺序打印1 至 100 的奇数和偶数:import ("fmt""time" )func main() {block : make(chan struct{})go odd(block)go even(block)time.S…

Element Plus常见基础组件(一)

基础组件 Button 按钮 一、基础用法 <el-button>默认按钮</el-button> <el-button type"primary">主要按钮</el-button>二、按钮类型 (type) 类型说明示例代码default默认按钮<el-button>默认</el-button>primary主要按钮&a…

sdxl量化加速笔记

文章目录一、量化加速sdxl模型1&#xff09;涉及模型2&#xff09;环境安装3&#xff09;转换模型safetensor to pytorch文件4&#xff09;tensorRT的环境准备&#xff08;1&#xff09;下载tensorRT 10.10&#xff08;2&#xff09;下载cuda一、量化加速sdxl模型 1&#xff0…

西门子 G120 变频器全解析:从认知到参数设置

在工业自动化领域&#xff0c;变频器作为电机驱动的核心设备&#xff0c;其稳定运行与精准控制直接影响生产效率。西门子 G120 变频器凭借可靠性能与灵活配置&#xff0c;成为众多工业场景的优选。本文将从基础认知、操作面板到参数设置&#xff0c;全方位带你掌握 G120 变频器…

【自动化运维神器Ansible】YAML支持的数据类型详解:构建高效Playbook的基石

目录 1 YAML数据类型概述 1.1 为什么数据类型很重要&#xff1f; 1.2 YAML数据类型分类 2 标量类型&#xff08;Scalars&#xff09; 2.1 字符串&#xff08;String&#xff09; 2.2 布尔值&#xff08;Boolean&#xff09; 2.3 数值&#xff08;Numbers&#xff09; 2…

基于岗位需求的康养休闲旅游服务实训室建设方案

一、康养休闲旅游服务实训室建设方案建设需求分析康养休闲旅游服务行业的快速发展对技能人才提出了精准化、场景化的能力要求&#xff0c;康养休闲旅游服务实训室建设方案需紧密对接健康咨询、接待服务、康乐服务等核心岗位群的实际需求。从岗位技能来看&#xff0c;健康咨询岗…

MES 与工业物联网(IIoT)的化学反应:为何是智能工厂的 “神经中枢”?

从“被动救火”到“主动预警”的工厂革命想象一下&#xff0c;当你正在家中熟睡时&#xff0c;智能手环突然震动&#xff0c;提醒你心率异常&#xff1b;早上出门前&#xff0c;手机 APP 告诉你爱车的某个零件即将达到磨损极限&#xff0c;建议及时更换。这些日常生活中的智能预…

工作好用小工具积累

1、内部环境太多&#xff0c;网站导航git地址&#xff1a;https://github.com/hslr-s/sun-panel/releases gitee地址&#xff1a;https://gitee.com/luofei1284999247/sun-panel

智能Agent场景实战指南 Day 26:Agent评估与性能优化

【智能Agent场景实战指南 Day 26】Agent评估与性能优化 开篇 欢迎来到"智能Agent场景实战指南"系列的第26天&#xff01;今天我们将深入探讨智能Agent的评估方法与性能优化技术。构建高效、可靠的智能Agent系统需要完善的评估体系和优化策略&#xff0c;本文将系统…