机器学习——逻辑回归(LogisticRegression)的核心参数:以约会数据集为例


理解 LogisticRegression 的核心参数:以约会数据集为例

逻辑回归(Logistic Regression)是机器学习中一种基础且重要的分类算法,特别适用于解决二分类和多分类问题。本文将基于 sklearn.linear_model.LogisticRegression 的用法,结合一个典型的约会数据集,通过代码实践,详解其核心参数的作用与调优技巧。

下方链接下载文件

作者《机器学习实战》 Peter Harrington 的配套代码

machinelearninginaction/Ch02/datingTestSet2.txt at master · pbharrin/machinelearninginactionhttps://github.com/pbharrin/machinelearninginaction/blob/master/Ch02/datingTestSet2.txt(完整代码在底部)

一、模型背景与代码示例

我们使用《机器学习实战》中的数据集 datingTestSet2.txt

其数据包含三列特征和一个表示喜欢程度的标签(1:不喜欢,2:魅力一般,3:非常喜欢)。

通过如下代码训练逻辑回归模型:

from sklearn.linear_model import LogisticRegression# 初始化逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)

接下来我们围绕 LogisticRegression 的主要参数逐个进行解析。


二、核心参数详解

1️⃣ C: 正则化强度的倒数(默认值:1.0)

  • 含义:控制正则化项的权重。较小的 C 值表示更强的正则化,会限制模型复杂度,有助于防止过拟合。

  • 实例:在本文代码中使用了 C=0.01,代表较强的正则化。

model = LogisticRegression(C=0.01)

建议:

  • 若模型过拟合(训练集准确高,测试集低)→ 减小 C

  • 若模型欠拟合(整体准确率都低)→ 增大 C


2️⃣ penalty: 正则化方式(默认值:'l2')

  • 可选值:'l1', 'l2', 'elasticnet', 'none'

  • 'l1':可产生稀疏模型(特征选择)

  • 'l2':默认值,更适合大多数线性问题

  • 'elasticnet':结合 l1l2

  • 'none':不使用正则化(风险较大)

model = LogisticRegression(penalty='l2')

❗ 注意:不同 solver 对支持的 penalty 有限制,例如 'liblinear' 支持 'l1''l2',而 'saga' 才支持 'elasticnet'


3️⃣ solver: 优化算法(默认值:'lbfgs')

  • 可选值:

    • 'liblinear':适用于小数据集,支持 'l1''l2'

    • 'lbfgs':适合多分类(支持 'l2'),速度快,默认值

    • 'newton-cg''sag''saga':适合大数据

model = LogisticRegression(solver='lbfgs')

✅ 实际建议:

  • 小数据集(如本文案例) → liblinear

  • 多分类任务 → lbfgssaga

  • 稀疏特征(如文本) → saga


4️⃣ multi_class: 多分类策略(默认:'auto')

  • 'ovr'(一对其余,One-vs-Rest):训练多个二分类器,速度快,解释性强

  • 'multinomial':直接优化多分类损失函数,预测效果通常更优

  • 'auto':自动选择(liblinearovr,其他 → multinomial

model = LogisticRegression(multi_class='multinomial')

5️⃣ max_iter: 最大迭代次数(默认值:100)

  • 当模型无法收敛时,可以调大该值,如设置为 1000

  • 若出现如下报错:ConvergenceWarning: lbfgs failed to converge → 增大 max_iter

model = LogisticRegression(max_iter=1000)

6️⃣ class_weight: 类别权重(默认值:None)

  • 用于处理类别不平衡问题,如设为 'balanced' 会自动按样本数调整权重

  • 或自定义字典,例如 {1:1, 2:2, 3:3}

model = LogisticRegression(class_weight='balanced')

7️⃣ random_state: 随机种子(可重复结果)

  • 设置后模型行为可复现,例如 random_state=42

  • 在划分训练/测试集、优化器初始化中有用

model = LogisticRegression(random_state=42)

除了LogisticRegression的参数,还有:

train_test_split的参数:

参数名类型说明
X, y数组或矩阵特征矩阵 X 和标签向量 y,支持 NumPy、Pandas、List 等
test_sizefloat 或 int测试集占比(如 0.25)或测试集样本数(如 100)
train_sizefloat 或 int训练集占比或样本数,默认自动补足(1 - test_size)
random_stateint随机种子,用于保证划分可复现。设为固定值(如 42)结果不会变
shufflebool是否在划分前打乱数据(默认 True,一般都要打乱)
stratifyarray-like 或 None分层抽样依据(常设为 y),用于保持标签比例一致(分类任务推荐)

三、系数和截距

print(model.coef_)       # 每个类别的特征系数(权重)
print(model.intercept_)  # 每个类别的偏置(截距)

对于三分类模型(标签为 1、2、3),会输出三组线性决策函数(即分割面):

y = w1*x1 + w2*x2 + w3*x3 + b

如输出结果如下:

分割线1: y = -0.1234x1 + 0.2345x2 - 0.5678x3 + 1.2345
分割线2: y = ...

四、总结:调参建议

问题建议参数
模型过拟合减小 C,增加正则化强度
模型欠拟合增大 C,尝试 multinomial
类别不平衡使用 class_weight='balanced'
收敛慢或警告增加 max_iter,或更换 solver
特征太多,想降维使用 penalty='l1', solver='liblinear'

附:完整模型构建代码

import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_splitdata = np.loadtxt('datingTestSet2.txt')
X = data[:, :-1]
y = data[:, -1]# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100)# 训练逻辑回归模型
model = LogisticRegression(C=0.01, max_iter=200, multi_class='auto', solver='lbfgs')
model.fit(X_train, y_train)print("训练集准确率:", model.score(X_train, y_train))
print("测试集准确率:", model.score(X_test, y_test))
print("权重系数:", model.coef_)
print("截距:", model.intercept_)# 自变量系数和截距
a = model.coef_
b = model.intercept_
print(f"分割线1:y = {a[0][0]:.4f}x1 + {a[0][1]:.4f}x2 + {a[0][2]:.4f}x3 + {b[0]:.4f}")
print(f"分割线2:y = {a[1][0]:.4f}x1 + {a[1][1]:.4f}x2 + {a[1][2]:.4f}x3 + {b[1]:.4f}")
print(f"分割线3:y = {a[2][0]:.4f}x1 + {a[2][1]:.4f}x2 + {a[2][2]:.4f}x3 + {b[2]:.4f}")

分割线中的系数四舍五入了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/91415.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/91415.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入解析 Apache Flink FLIP-511:优化 Kafka Sink 事务处理,减轻 Broker 负载

一、 背景与核心问题:Kafka Sink 事务的痛点 Flink Kafka Sink 在 Exactly-Once 模式下依赖 Kafka 事务来确保数据写入的原子性,并与 Flink 检查点对齐。然而,非优雅关闭(如任务失败、非 stop-with-savepoint 的停止)会…

设计模式:组合模式 Composite

目录前言问题解决方案结构代码前言 组合是一种结构型设计模式,你可以使用它将对象组合成树状结构,并且能像使用独立对象一样使用它们。 问题 如果应用的核心模型能用树状结构表示, 在应用中使用组合模式才有价值。 例如, 你有两…

嵌入式 C 语言入门:函数封装与参数传递学习笔记 —— 从定义到内存机制

前言 大家好&#xff0c;这里是 Hello_Embed。在前一篇笔记中&#xff0c;我们用循环实现了 LED 闪烁&#xff0c;其中重复使用了两段几乎一样的延时代码&#xff1a; for(i 0; i < 100000000; i); // 延时这种重复不仅让代码冗余&#xff0c;还不利于后续修改&#xff08…

第一个大语言模型的微调

模型推理 现在,我们的模型应该能够针对输入的任何短句生成类似尤达大师风格的句子作为回应。 该模型要求其输入格式规范。我们需要构建一个 “消息” 列表 —— 在这个案例中,就是来自用户的消息 —— 并通过提示表明轮到模型进行输出,以促使其做出回答。 add_generation…

Linux内核驱动开发核心问题全解

&#x1f4d6; 推荐阅读&#xff1a;《Yocto项目实战教程:高效定制嵌入式Linux系统》 &#x1f3a5; 更多学习视频请关注 B 站&#xff1a;嵌入式Jerry Linux内核驱动开发核心问题全解 本文系统梳理了 Linux 驱动开发、内核同步、中断处理、内存管理、进程通信、系统启动等典型…

【C++篇】C++11入门:踏入C++新世界的大门

文章目录C11简介列表初始化1. {}初始化2. initializer_list容器initializer_list的使用场景声明1. auto2. decltype3. nullptrSTL中的变化1. 新容器array容器forward_list容器unordered_map和unordered_set容器2. 新接口C11简介 C98/03&#xff1a;在2003年C标准委员会曾经提交…

Java 日期时间处理:分类、用途与性能分析

Java提供了多种日期时间处理API&#xff0c;随着版本演进不断改进。以下是主要日期时间类的分类、用途和性能分析&#xff1a;一、Java日期时间API分类1. 传统日期时间API (Java 1.0/1.1)java.util.Date - 表示特定的瞬间&#xff0c;精确到毫秒java.util.Calendar - 抽象类&am…

[Linux]学习笔记系列 --GCC

文章目录属性__cleanup__attribute_malloc__ 用于标记函数返回一个新分配的内存块__attribute_alloc_size__ 用于指定分配的内存大小__attribute__((const)) 标记为纯函数(pure function)__attribute__((__externally_visible__)) 使其在编译器优化过程中保持对外部模块的可见性…

【龙泽科技】汽车维护与底盘拆装检修仿真教学软件【风光580】

产品简介汽车维护与底盘拆装检修仿真教学软件是依托《全国职业院校技能大赛》“汽车维修”赛项中“汽车维护与底盘拆装检修模块”竞赛模块&#xff0c;自主开发的一款仿真教学软件。软件采用仿真仿真技术模拟实际汽车维修工的岗位技能操作流程&#xff0c;操作内容主要包括&…

Spring之【循环引用】

目录前置知识SingletonBeanRegistryDefaultSingletonBeanRegistrySpring中处理循环引用的流程分析定义两个具有循环引用特点的Bean执行A的实例化执行A的属性填充(执行过程中发现A依赖B&#xff0c;就去执行B的实例化逻辑)执行B的实例化执行B的属性填充执行B的初始化执行A的属性…

LRU缓存淘汰算法的详细介绍与具体实现

LRU&#xff08;Least Recently Used&#xff0c;最近最少使用&#xff09;是一种基于时间局部性原理的缓存淘汰策略。其核心思想是&#xff1a;最近被访问的数据在未来更可能被再次使用&#xff0c;而最久未被访问的数据应优先被淘汰&#xff0c;从而在有限的缓存空间内保留高…

JS-第十九天-事件(一)

一、事件基础概念1.1 事件三要素事件源&#xff1a;触发事件的元素事件类型&#xff1a;事件的种类&#xff08;如click、mouseover等&#xff09;事件处理程序&#xff1a;响应事件的函数1.2 事件流机制事件传播分为三个阶段&#xff1a;捕获阶段&#xff1a;事件从顶层开始&a…

Matplotlib(三)- 图表辅助元素

文章目录一、图表辅助元素简介二、坐标轴的标签、刻度范围和刻度标签1. 坐标轴标签1.1 x轴标签1.2 y轴标签1.3 示例&#xff1a;绘制天气气温折线图2. 刻度范围和刻度标签2.1 刻度范围2.1.1 x轴刻度范围2.1.2 y轴刻度范围2.2 刻度标签2.2.1 x轴刻度标签2.2.2 y轴刻度标签2.3 示…

【Linux基础知识系列】第七十八篇 - 初识Nmap:网络扫描工具

在网络管理和安全领域&#xff0c;网络扫描是一个不可或缺的工具。它可以帮助网络管理员了解网络中的设备、服务以及潜在的安全漏洞。Nmap&#xff08;Network Mapper&#xff09;是一个功能强大的开源网络扫描工具&#xff0c;它能够快速发现网络中的主机、端口和服务&#xf…

EasyGBS的两种录像回看

EasyGBS 支持两种录像回看&#xff0c;即“平台端”的录像回看和“设备端”的录像回看。本期我们来介绍两者的区别和使用方法。一、平台端录像1、什么是平台端录像平台端录像是指由 EasyGBS 平台直接录制并存储。2、配置平台端录像进入平台&#xff0c;依次点击【录像回放】→【…

大模型学习思路推荐!

为进一步贯彻落实中共中央印发《关于深化人才发展体制机制改革的意见》和国务院印发《关于“十四五”数字经济发展规划》等有关工作的部署要求&#xff0c;深入实施人才强国战略和创新驱动发展战略&#xff0c;加强全国数字化人才队伍建设&#xff0c;持续推进人工智能从业人员…

数据库连接池性能优化实战

背景我们公司正在处于某个项目的维护阶段&#xff0c;领导对资源告警比较重视&#xff0c;服务器资源告警的就不说了&#xff0c;运维同学每隔一小时都会检测线上环境的应用服务信息&#xff0c;例如&#xff1a;网关日志响应时间告警/nginx日志接口响应时间告警/日志关键字异常…

Excel常用函数大全,非常实用

一、数学与统计函数1. SUM作用&#xff1a;求和SUM(number1, [number2], ...)SUM(A1:A10) ➔ 计算A1到A10单元格的总和注意&#xff1a;自动忽略文本和空单元格2. AVERAGE作用&#xff1a;计算平均值AVERAGE(number1, [number2], ...)AVERAGE(B2:B20) ➔ 计算B列20个数据的平均…

性能优化(一):时间分片(Time Slicing):让你的应用在高负载下“永不卡顿”的秘密

性能优化(一)&#xff1a;时间分片&#xff08;Time Slicing&#xff09;&#xff1a;让你的应用在高负载下“永不卡顿”的秘密 引子&#xff1a;那张让你浏览器崩溃的“无限列表” 想象一个场景&#xff1a;你需要渲染一个包含一万个项目的列表。在我们的“看不见”的应用中&a…

《C++》STL--list容器详解

在 C 标准模板库(STL)中&#xff0c;list 是一个非常重要的序列容器&#xff0c;它实现了双向链表的数据结构。与 vector 和 deque 不同&#xff0c;list 提供了高效的插入和删除操作&#xff0c;特别是在任意位置。本文将深入探讨 list 容器的特性、使用方法以及常见操作。 文…