周志华《机器学习导论》第8章集成学习 Ensemble Learning

周志华《机器学习导论》第8章集成学习 Ensemble Learning

pingmian/2025/7/27 17:30:53/文章来源:https://blog.csdn.net/nju_spy/article/details/149419164

目录

8.1 个体与集成

8.2 Boosting

Ada（Adaptive）Boost

8.3 Bagging

8.4 随机森林

8.5 结合策略

8.5.1 平均法

8.5.2 投票法

8.5.3 学习法

8.6 多样性

8.6.1 误差-分歧分解 error-ambiguity

8.6.2 多样性度量

8.6.3 多样性增强

8.1 个体与集成

同质集成“基学习器” 如决策树、神经网络；异质集成中的个体学习器由不同的学习算法生成

个体学习器的“准确性”和“多样性” 对“好而不同”的个体学习器投票“少数服从多数”

T 个基分类器错误率为€ 整体错误率为错半数以上随着T增大收敛到0

个体学习器间存在强依赖关系、必须串行生成的序列化方法 Boosting

间不存在强依赖关系、可同时生成的并行化方法 Bagging和“随机森林"

8.2 Boosting

每轮样本的权重不同上轮分类错误的样本权重被调大在下一次学习中被关注进而调高准确度

Ada（Adaptive）Boost

伪代码如下下方主要是对于样本分布 D_t+1 调整的数学推导

训练分类器h 算出误差ε 更新样本分布Dt+1和Dt 关系

理想的基学习器能纠正之前叠加形态分类器的所有错误

（但如果新的分类错误多到超过一半那也不合适）

最后的分布调整 D_t+1 和 D_t的关系

8.3 Bagging

重叠采样思想

基学习器尽可能具有较大的差异可使得训练数据不同：

对训练样本进行采样，产生出若干个不同的子集，每个子集训练出一个基学习器.

希望个体学习器不能太差使每个学习器使用更多数据：使用相互有交叠的采样子集.

bootstrap sampling 自助采样法 m个样本采样m次没被采样到的概率收敛为

T轮采样 每轮采m个数据作为训练集用基学习算法训练出模型

对这T个训练出来的集成模型回归问题则把T个结果平均一下分类问题则把T个结果投票一下

包外估计：把没被采样到的数据作为验证集

8.4 随机森林

以决策树为基学习器构建Bagging 在决策树的训练过程中

先随机选取一些特征再选这几个中最优的几个（数据随机+特征随机）

scikit-learn 随机森林

class 参数的中文说明可参考这篇

8.5 结合策略

相对单学习器的优势：

1.学习任务假设空间很大若很多假设在训练集效果相近

但单学习器不能确定在总体空间做的好不好

2.学习算法陷入局部最优解泛化性不强 3.结合有利于扩大原样本的假设空间

8.5.1 平均法

8.5.2 投票法

分类为N种中一种 1.超过半数则确定 2.选票最多的（票的权重平均或加权）

8.5.3 学习法

Stacking 训练出的学习器生成一些样本与原样本混合训练下一个学习器

8.6 多样性

8.6.1 误差-分歧分解 error-ambiguity

加权分歧加权误差加权分歧=加权误差-总误差

总误差=加权误差-加权分歧

误差越小分歧（多样性）越大总误差越小

8.6.2 多样性度量

两两的相似/不相似性

不合度量（b和c为结果不一样的）

相关系数

8.6.3 多样性增强

1.数据样本扰动（不同采样方式） 2.输入属性扰动（属性集中选取使用属性）

3.输出表示扰动（把分类问题转化为回归问题拆解原问题） 4.算法参数改动（调参）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/pingmian/90140.shtml
繁体地址，请注明出处：http://hk.pswp.cn/pingmian/90140.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Embassy实战：Rust嵌入式异步开发指南

Embassy实战：Rust嵌入式异步开发指南

嵌入式异步框架 Embassy 实例以下是关于嵌入式异步框架 Embassy 的实用示例，涵盖常见外设操作、多任务协作和硬件交互场景。示例基于STM32和Raspberry Pi Pico等平台，使用Rust语言编写。 GPIO 控制 use embassy_stm32::gpio::{Input, Output, Pull, Speed}; use embassy_…

阅读更多...

ChatGPT桌面版深度解析

ChatGPT桌面版深度解析

ChatGPT桌面版深度解析：功能、安装与高效使用全攻略一、核心功能全景解析 （一）全场景交互体系全局热键唤醒支持MacOS（Option空格）与Windows（Alt空格）全局快捷键，实现跨应用无缝调…

阅读更多...

RLVR的一种扩展方案--RLPR论文阅读

RLVR的一种扩展方案--RLPR论文阅读

论文链接：RLPR: EXTRAPOLATING RLVR TO GENERAL DOMAINS WITHOUT VERIFIERS 文章目录简介RLPRRLVR概率奖励/Probability Reward奖励设计标准差过滤总结简介可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)在提升大语言模型&#xff…

阅读更多...

odoo欧度小程序——添加用户

odoo欧度小程序——添加用户

odoo欧度小程序添加登录用户 1. 直接在登录用户页面添加用户点击添加登录用户输入用户和密码，点击登录验证进入odoo页面2. 在用户切换页面添加用户点击选择切换用户点击域名弹出菜单点击添加新用户输入用户和密码，点击登录验证进入odoo页面

阅读更多...

Docker 应用数据备份、迁移方案

Docker 应用数据备份、迁移方案

一、为什么要做Docker数据备份1、保障数据与配置的安全性防止数据丢失：Docker 容器本身是 “临时性” 的（基于镜像创建，删除后数据默认丢失），但容器中运行的应用（如数据库、日志服务）会产生持久…

阅读更多...

【PTA数据结构 | C语言版】强连通分量

【PTA数据结构 | C语言版】强连通分量

本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目本题请你编写程序，输出给定有向图中的各个强连通分量，并统计强连通分量的个数。输入格式： 输入首先在第一行给出 2 个整数，依次为有向图的顶点数 n&…

阅读更多...

idea部署新项目时，用自定义的maven出现的问题解决

idea部署新项目时，用自定义的maven出现的问题解决

出现这个问题是因为maven版本和idea版本不兼容，例如图示是maven3.9和idea2021.3的版本不兼容，maven换成3.8.x即可解决

阅读更多...

OCR 身份识别：让身份信息录入场景更高效安全

OCR 身份识别：让身份信息录入场景更高效安全

在银行柜台开户、线上平台实名认证等场景中，身份信息录入是基础环节，OCR 身份识别产品正成为提升效率与安全性的关键。传统人工录入身份证信息，不仅耗时久，还易因手误导致姓名、号码出错，影响业务办理进度。而 OCR 身…

阅读更多...

Web 服务器和Web 中间件

Web 服务器和Web 中间件

一、什么是 Web 中间件 Web 中间件（Web Middleware）是运行在 Web 服务器与实际业务程序之间的一层“胶水”软件，用来统一处理公共事务，让开发者专注写业务逻辑。常见职责： 请求/响应拦截（鉴权、日志、跨域、…

阅读更多...

Paimon的部分更新以及DeleteVector实现

Paimon的部分更新以及DeleteVector实现

背景本文基于 Paimon 0.9 出于对与Paimon内部的DeleteVctor的实现以及部分更新的实现进行的源码阅读。关于 DeleteVector的介绍可以看这里说明对于Paimon来说无论是Spark中使用还是Flink使用，后面的逻辑都是一样的，所以我们以Spark为例来说。所以…

阅读更多...

Redis 的事务机制是怎样的？

Redis 的事务机制是怎样的？

Redis 的事务机制 Redis支持事务机制，其主要目的是确保多个命令执行的原子性，即这些命令会作为一个不可分割的操作单元执行。需要注意的是，Redis事务不支持回滚操作。从Redis 2.6.5版本开始，服务器会在命令累积阶段检测错误。在执行EXEC命令时，若发现错误则会拒绝执行事…

阅读更多...

网安学习NO.17

网安学习NO.17

1. VPN 概述定义：在公用网络（如 Internet、帧中继、ATM 等）中，通过技术手段虚拟出的一条企业内部专线，能像私有网络一样提供安全性、可靠性和可管理性。核心特征：利用公共网络构建，具备 “虚拟性…

阅读更多...

MCU芯片AS32S601在卫星光纤放大器（EDFA）中的应用探索

MCU芯片AS32S601在卫星光纤放大器（EDFA）中的应用探索

摘要：本文聚焦于国科安芯推出的AS32S601型MCU芯片在卫星光纤放大器（EDFA）中的潜在应用，探讨其技术特性、抗辐射性能及适用性。通过分析其在单粒子效应脉冲激光试验中的表现，结合EDFA系统对控制芯片的要求，评…

阅读更多...

Hexo - 免费搭建个人博客02 - 创建个人博客

Hexo - 免费搭建个人博客02 - 创建个人博客

导言我的博客：https://q164129345.github.io/ 开始一步一步地完成博客的创建。一、初始化Hexo博客以上所示，运行以下指令在myCode文件夹里初始化一个hexo博客。 hexo init myblog二、安装依赖如上所示，完成依赖的安装。 cd myblog npm insta…

阅读更多...

单片机-----基础知识整合

单片机-----基础知识整合

一、基础知识1）单片机的组成：中央处理器CPU、随机存储器RAM、只读存储器ROM、定时器、多种I/O接口、中断系统等2）STM32U575RIT6采用ARM Cortex-M33内核架构ARM是什么？①ARM是一家公司，ARM公司是一家芯片知识产权&#…

阅读更多...

双流join 、 Paimon Partial Update 和动态schema

双流join 、 Paimon Partial Update 和动态schema

背景 Paimon 通过其独特的 partial-update 合并引擎和底层的 LSM 存储结构，巧妙地将传统双流 Join 中对 Flink State 的高频随机读/写，转换为了对 Paimon 表的顺序写和后台的高效合并，从而一站式地解决了 Flink 作业状态过大、依赖外部 KV 系…

阅读更多...

7.3.1 进程调度机制那些事儿

7.3.1 进程调度机制那些事儿

一：task_struct结构体分析 1、进程有两种特殊形式：没有用户虚拟地址空间的进程叫内核线程，共享用户虚拟地址空间的进程叫作用户线程。共享同一个用户虚拟地址空间的所有用户线程叫线程组。 C语言标准库进程 Linux内核进程 …

阅读更多...

基于多种机器学习的水质污染及安全预测分析系统的设计与实现【随机森林、XGBoost、LightGBM、SMOTE、贝叶斯优化】

基于多种机器学习的水质污染及安全预测分析系统的设计与实现【随机森林、XGBoost、LightGBM、SMOTE、贝叶斯优化】

文章目录有需要本项目的代码或文档以及全部资源，或者部署调试可以私信博主项目介绍总结每文一语有需要本项目的代码或文档以及全部资源，或者部署调试可以私信博主项目介绍随着工业化和城市化的不断推进，水质污染问题逐渐成为影响生态环境…

阅读更多...

Linux第三天Linux基础命令(二)

Linux第三天Linux基础命令(二)

1.grep命令可以通过grep命令，从文件中通过关键字过滤文件行。grep [-n] 关键字文件路径选项-n，可选，表示在结果中显示匹配的行的行号。参数，关键字，必填，表示过滤的关键字，带有空格或其它特殊符…

阅读更多...

Linux Debian操作系统、Deepin深度操作系统手动分区方案参考

Linux Debian操作系统、Deepin深度操作系统手动分区方案参考

以下是Linux Debian操作系统、Deepin深度操作系统安装过程中手动分区的建议，按UEFI、swap、boot、根分区、home分区划分，以下是详细的分区配置参考建议： 一、手动分区方案（UEFI模式）分区名称分区类型大小建议挂载点文件…

阅读更多...

最新文章