预测模型及超参数:3.集成学习:[1]LightGBM

        想象你是一位乐队指挥,你的任务是协调乐队中的每位音乐家,以演奏出一场完美的音乐会。每位音乐家(即决策树)擅长不同的乐器或乐章。在指挥过程中,你通过调节各位音乐家演奏的强度(模型参数),让他们共同合作,最终演绎出一场精彩的音乐会。LightGBM 就像这位指挥,通过调节各个“音乐家”(决策树)的表现,合力预测数值型数据。

        LightGBM 是一种基于梯度提升的算法,它通过构建多个决策树来进行回归任务。它的优势在于速度快、内存占用低,尤其适合于处理大型数据集和高维度数据,以下是该模型中所有参数的详细解释:

1. learning_rate(学习率)

  • 作用:控制每棵树对整体模型的贡献程度。
  • 通俗解释
    • 想象乐队每位音乐家的演奏音量。learning_rate 就是你控制每位音乐家音量大小的旋钮。较小的音量(较低的学习率)使得乐队演奏更加和谐,但需要更多的音乐家(决策树)来完成乐曲。较大的音量(较高的学习率)使得乐队演奏更快完成,但可能会错失乐曲中的细节。
  • 取值范围:通常在 0.01 到 0.3 之间。

2. num_leaves(叶子节点数)

  • 作用:决定树的复杂度,影响模型的学习能力。
  • 通俗解释
    • 每个音乐家(决策树)能演奏的乐章数。num_leaves 控制了每个音乐家能演奏的复杂程度。更多的叶子节点意味着更复杂的乐章,但可能导致过拟合。
  • 取值范围:通常在 20 到 150 之间。

3. max_depth(最大深度)

  • 作用:控制树的最大深度。通过限制深度来防止过拟合。
  • 通俗解释
    • 决定每位音乐家能演奏的段落复杂度。较短的乐章(较小的深度)使得演奏更简单化,避免复杂度过高导致混乱。
  • 取值范围:一般在 3 到 12 之间。

4. min_data_in_leaf(叶子节点的最小数据量)

  • 作用:控制每个叶子节点上的最小样本数量。
  • 通俗解释
    • 想象音乐家演奏的每个段落至少需要一定数量的音符(数据),min_data_in_leaf 确保每段演奏具有足够的信息量来避免被误解。
  • 取值范围:一般在 1 到 100 之间。

5. min_sum_hessian_in_leaf(叶子节点的最小 Hessian 和)

  • 作用:控制每个叶子节点的最小 Hessian 和,用于正则化。
  • 通俗解释
    • 这是对音乐家演奏中复杂和谐度的一个控制,确保每段演奏在乐理上的稳定性。
  • 取值范围:一般在 1e-3 到 10.0 之间。

6. bagging_fraction(袋外采样比例)

  • 作用:控制用于每棵树训练的数据比例。
  • 通俗解释
    • 想象在音乐彩排中,你不是每次都让所有音乐家参与,而是让一部分音乐家参与,bagging_fraction 控制了这种参与比例。
  • 取值范围0.5 到 1.0,通常设置为 0.8。

7. bagging_freq(袋外采样频率)

  • 作用:控制执行袋外采样的频率。
  • 通俗解释
    • 指定乐队指挥在乐曲中更换不同音乐家的频率,例如每隔几段乐谱就更换一次。
  • 取值范围1 到 7,通常设置为 1。

8. feature_fraction(特征采样比例)

  • 作用:控制每棵树使用的特征比例。
  • 通俗解释
    • 类似于每位音乐家在每次演奏中只关注一定比例的音符(特征),而不是所有音符,增加演奏的多样性。
  • 取值范围0.5 到 1.0,通常设置为 0.8。

9. lambda_l1(L1 正则化)

  • 作用:对模型施加 L1 正则化,减少特征数量。
  • 通俗解释
    • 通过对某些音乐家演奏的音量进行抑制,保持乐队演奏的简洁性,避免不必要的复杂度。
  • 取值范围0.0 到 1.0

10. lambda_l2(L2 正则化)

  • 作用:对模型施加 L2 正则化,进一步减少特征复杂性。
  • 通俗解释
    • 这是对音乐家演奏音量的另一种控制,确保整体乐曲的和谐性。
  • 取值范围0.0 到 1.0

11. device(计算设备)

  • 作用:指定模型训练时使用的计算设备。
  • 通俗解释
    • 就像是乐队指挥是否使用电子设备辅助指挥。在当前代码中,使用 "cpu" 进行计算。
  • 取值范围:"cpu" 或 "gpu"。

总结

参数名称

通俗解释

作用

取值范围

learning_rate

控制每位音乐家的演奏音量

控制模型的学习步伐

0.01 到 0.3

num_leaves

决定每位音乐家能演奏的乐章数

控制树的复杂度

20 到 150

max_depth

每位音乐家能演奏的段落复杂度

限制树的深度,防止过拟合

3 到 12

min_data_in_leaf

演奏每段乐章所需的最小音符数量

确保每段演奏的信息量

1 到 100

min_sum_hessian_in_leaf

控制演奏复杂度的和谐程度

正则化,确保演奏稳定性

1e-3 到 10.0

bagging_fraction

彩排中参与的音乐家比例

引入随机性,增加模型的多样性

0.5 到 1.0

bagging_freq

更换不同音乐家的频率

控制袋外采样频率

1 到 7

feature_fraction

每位音乐家关注的音符比例

控制每棵树使用的特征比例

0.5 到 1.0

lambda_l1

抑制某些音乐家演奏音量

L1 正则化,减少特征数量

0.0 到 1.0

lambda_l2

控制演奏音量的和谐性

L2 正则化,减少特征复杂性

0.0 到 1.0

相关参数的详细数学公式推导可看

LightGBM简易原理与超参数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/920498.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/920498.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Jetson进行旋转目标检测推理实现大疆无人机飞行控制

源码结构 大疆PSDK源码地址: https://github.com/dji-sdk/Payload-SDK其目录结构如下: Payload-SDK-master ├── CMakeLists.txt ├── doc │ ├── dji_sdk_code_style │ └── simple_model ├── EULA.txt ├── LICENSE.txt ├── psd…

阿里云百炼智能体连接云数据库实践(DMS MCP)

这篇文章主要是通过使用阿里云的百炼智能体与阿里云的serverless来实现数据库的操作 欢迎一起交流!! 首先,当然是选择自己需要的数据库啦 在阿里云控制台选择产品 - > 数据库 - > 数据管理DMS进来的界面如下所示 第一次进来的时候是…

某商店JS混淆补环境与纯算逆向分析

文章目录1. 写在前面2. 接口分析3. 补环境分析4. 纯算法还原【🏠作者主页】:吴秋霖 【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并…

如何安装 mysql-installer-community-8.0.21.0.tar.gz(Linux 详细教程附安装包下载)​

这是一个 ​Linux 下 MySQL 8.0.21 的压缩安装包,虽然名字里有 installer,但它其实就是一个压缩好的二进制安装包,不是 Windows 那种图形化安装程序。 一、准备工作 确保你已经有: Linux 系统(比如 Ubuntu、CentOS、…

IDEA-琴澳研究中心及学术联盟启动,产研协同赋能区域发展

8月30日,IDEA-琴澳中心主导研发的Smaray渲染引擎将发布可免费下载的Tech Preview(技术预览版)。本次发布标志着粤港澳大湾区在政产研协同创新实现成果落地,也是产业“人工智能”的探索迈进。Smaray是国内首个公开服务的、AI驱动的…

如何备份 TECNO 手机上的短信

许多 TECNO 用户都在寻找方法,以防止因手机损坏、被盗或恢复出厂设置而导致重要对话意外丢失,确保在需要时能够访问他们的数据。还有些人希望在释放设备存储空间的同时,仍然保留旧消息的副本以供日后参考。如果你一直在寻找“备份 TECNO 短信…

OpenAI Sora深度解析:AI视频生成技术如何重塑广告电商行业?影业合作已落地

最近刷到一条超震撼的视频:咖啡杯从桌角滑落,在空中转了半圈居然自己弹回桌面,牛奶一滴没洒。你猜怎么着?这居然是AI生成的,就是OpenAI那个叫Sora的工具做的。是不是觉得有点不可思议?现在这技术已经能做到…

力扣p1011在D天送达包裹的能力 详解

题目如下:代码如下,先看代码,再看思路:注意,从check函数下方的left处看,我认为难点在于以啥来二分,都说求啥拿啥分,但实际无从下手,关键在于如何寻找边界,此处…

React Three Fiber

下面,我们来系统的梳理关于 React Three Fiber:WebGL 与 React 的基本知识点: 一、React Three Fiber 核心概念 1.1 什么是 React Three Fiber? React Three Fiber(R3F)是一个用于 Three.js 的 React 渲染…

YARN架构解析:深入理解Hadoop资源管理核心

YARN架构解析:深入理解Hadoop资源管理核心 🌟 你好,我是 励志成为糕手 ! 🌌 在代码的宇宙中,我是那个追逐优雅与性能的星际旅人。 ✨ 每一行代码都是我种下的星光,在逻辑的土壤里生长成璀璨的银…

爬虫代理的核心作用、分类及使用要点

在数据采集场景中,爬虫代理作为“中间传输节点”,通过转发爬虫请求、隐藏真实IP地址,解决传统爬虫面临的诸多限制,其核心价值体现在三个方面:突破IP封锁与访问限制:多数网站会对高频请求的IP进行封锁&#…

EXCEL开发之路(三)sheets梯形样式设计—仙盟创梦IDE

在蔬菜批发行业,高效的信息管理与操作便捷性对于业务的顺畅开展至关重要。梯形 Nav(导航栏)切换这一设计,看似只是界面交互的小细节,实则在提升用户体验、优化业务流程等方面有着不可忽视的意义,对于初学者…

Unity游戏打包——iOS打包pod的重装和使用

本文由 NRatel 历史笔记整理而来,如有错误欢迎指正。 一、重装 pod 和使用 1、下载安装 rvm curl -L get.rvm.io | bash -s stable 2、使环境变量生效 (zsh) source ~/.zshrc source ~/.profile 3、查看rvm版本 rvm -v 4、重装ruby 关闭mac sip(可能需…

AWS OpenSearch 可观测最佳实践

AWS OpenSearch 介绍 OpenSearch 是一种全面开源搜索和分析引擎,使用案例包括日志分析、实时应用程序监控、点击流分析等。Amazon OpenSearch Service 是一项托管服务,让用户能够在 AWS 云中轻松部署、运行并扩展 OpenSearch 集群。 观测云 观测云是一…

HTML5七夕节网站源码

一,网站概述 本七夕节主题网站采用HTML5、CSS3与JavaScript技术栈构建,响应式设计适配多终端设备,通过模块化开发实现丰富交互体验。以下从架构设计、功能实现和视觉效果三方面概述: 1.1、架构设计 采用单页应用(SPA)架构&…

以技术赋能强化消费者信任,助推餐饮服务质量提质增效的明厨亮灶开源了

AI 视频监控平台简介 AI 视频监控平台是一款兼具强大功能与便捷操作的实时算法视频监控系统。其核心愿景在于打破各大芯片厂商间的技术壁垒,省去冗余重复的适配流程,构建 “芯片 - 算法 - 应用” 的全流程组合体系。这一体系可帮助企业级应用降低约 95%…

【NJU-OS-JYY笔记】操作系统:设计与实现

1. 绪论 1.1. 程序的执行与状态机 在计算机科学中,任何程序都可以被抽象为一个状态机,无论是我们熟知的日常工具(LibreOffice,Chrome)还是开发工具(IDE,GCC,GDB)&#…

GaussDB 修改schema属主时报:must be member of role “dtest“

1 问题现象schema的属主为root,客户需要修改对应的业务用户,在使用root用户登入postgres库时修改schema属主时报:ERROR:dn_6007_6008_6009:must be member of role "dtest"执行命令为:alter schema dtest owner to dtes…

好•真题资源+专业练习平台=高效备赛2025年初中古诗文大会(0829)

2025年初中生古诗文大会的初选11月2日-9日正式开赛,还有两个多月。快来做真题,吃透题目背后的知识点,举一反三不但对比赛有用,对于课内的语文学习也有很大促进。【好消息】2025年古诗文大会阅读专辑的模拟题好真题独家超详细完整解…

Pointer--Learing MOOC-C语言第九周指针

2、指针运算1.指针运算(本节内容详细请登录中国大学MOOC官网查询)指针是可计算的112?指针计算*p指针比较0地址指针的类型用指针来做什么2.动态内存分配输入数据:1.如果输入数据时候,先告诉你个数,然后再输入…