大数据管理与应用系列丛书《数据挖掘》读书笔记之集成学习(1)

文章目录

  • 前言
  • 一、集成学习是什么?
    • 1.基本思想
    • 2.集成学习的类型
    • 3. 集成学习的结合策略
      • 3.1 为什么结合策略是集成学习的灵魂?
      • 3.2 经典策略
            • (1)**投票法(Voting)**
            • **(2)平均法(Averaging)**
          • **(3) 学习法**
      • 3.3 关键对比与选择建议
  • 总结


前言

近日,我有幸深入学习了国防科技大学吕欣教授及其团队所著的《数据挖掘》一书,深受启发,收获颇丰。这本书系统性地介绍了数据挖掘的核心理论与经典算法,内容既涵盖基础概念,又深入实战技巧,尤其适合机器学习、数据科学领域的初学者和进阶者阅读。

吕欣教授及其团队以其深厚的学术功底和丰富的实践经验,将复杂的数据挖掘知识讲解得条理清晰、通俗易懂。书中不仅有严谨的数学推导,还配有丰富的案例和代码实现,真正做到了理论与实践相结合。

为更好地消化吸收书中精华,我将持续更新《集成学习》章节的读书笔记,内容包括集成学习的基本思想、常见方法(如Bagging、Boosting、Stacking)、随机森林、AdaBoost、GBDT、XGBoost以及LightGBM等核心算法的原理、实现与调参技巧。希望能帮助更多同学系统掌握集成学习的知识体系,也为大家在学习《数据挖掘》这本书时提供一份参考资料。

如果你对数据挖掘、机器学习感兴趣,或正在寻找一本既能打基础又能提升实战能力的教材,吕欣教授的《数据挖掘》绝对是不可多得的好书。推荐给大家!

下面是我的读书笔记正文,欢迎交流指正👇


提示:以下是本篇文章正文内容,下面案例可供参考

一、集成学习是什么?

1.基本思想

(1)“弱者的联盟”

集成学习(Ensemble learning)是机器学习中的一种思想,通过构建并结合多个个体学习器(Individual learner)形成一个精度更高的机器学习模型。这些个体学习器也是机器学习算法,可以是朴素贝叶斯、决策树、支持向量机和神经网络等。集成学习示意图如图1所示。

传统机器学习算法 (例如:决策树,逻辑回归等) 的目标都是寻找一个最优分类器尽可能的将训练数据分开。集成学习 算法的基本思想就是将多个弱分类器组合,从而实现一个预测效果更好的集成分类器。集成算法可以说从一方面验证了中国的一句老话:三个臭皮匠,赛过诸葛亮。

集成学习示意图
(2)“多样性红利”:模型间的差异性比单个模型的精度更重要,这与人类社会团队协作的规律惊人相似。

不同集成结果示例

2.集成学习的类型

在这里插入图片描述

3. 集成学习的结合策略

3.1 为什么结合策略是集成学习的灵魂?

集成学习的核心不是“模型越多越好”,而是“如何让模型间的协作产生超越个体的智
慧”。真正决定集成效果上限的,往往是基学习器的结合策略(Combination Strategy)。

[!NOTE]

我的思考

  • 如果把基模型比作“专家”,结合策略就是“专家委员会”的议事规则;

  • 好的策略能抑制噪声、放大有效信息,甚至让弱模型通过协作达到强模型的效果;

  • 结合策略的设计本质是信息融合的数学建模,背后隐含对数据分布、模型能力的先验假设。

3.2 经典策略

(1)投票法(Voting)
  • 硬投票(Hard Voting):平等对待每个模型,易受“多数暴政”影响(噪声模型可能主导结果)

y^=argmax⁡c∈C∑i=1TI(hi(x)=c)\hat{y}=\operatorname{argmax}_{c\in C}\sum_{i=1}^T\mathbb{I}(h_i(x)=c) y^=argmaxcCi=1TI(hi(x)=c)

​ 其中:

C:类别集合; II(⋅):指示函数(预测为类别 cc 时取1,否则取0)。

特点:直接统计类别票数,多数决制;可能受“多数噪声模型”干扰(若多个弱模型预测错误)。


  • 软投票(Soft Voting):引入概率权重,但对置信度的校准敏感(模型输出概率未必可靠)。

y^=argmax⁡c∈C1T∑i=1TPi(c∣x)\hat{y}=\operatorname{argmax}_{c\in C}\frac{1}{T}\sum_{i=1}^TP_i(c|x) y^=argmaxcCT1i=1TPi(cx)

​ 其中:

  • Pi(c∣x)表示第i个模型对样本x属于类别c的预测概率。P_i(c|x)表示第i个模型对样本x属于类别c的预测概率。 Pi(cx)表示第i个模型对样本x属于类别c的预测概率。

特点:要求基模型能输出概率(如逻辑回归、带概率校准的SVM);对模型校准敏感,若概率未校准可能效果下降。


  • 加权投票(Weighted Voting)

​ 以软投票为例:
y^=argmax⁡c∈C∑i=1TwiPi(c∣x)\hat{y}=\operatorname{argmax}_{c\in C}\sum_{i=1}^Tw_iP_i(c|x) y^=argmaxcCi=1TwiPi(cx)

  • 权重wi可基于模型性能或领域知识设定(如AUC值高的模型权重更大)。

[!NOTE]

  • 是否所有模型的“投票权”应该平等?
  • 如何量化模型在不同样本区域的置信度?
  • 改进思路:动态权重分配(如基于样本局部密度的加权投票)。
(2)平均法(Averaging)
  • 简单平均(Simple Averaging)
    y^=1T∑i=1Thi(x)\hat{y}=\frac{1}{T}\sum_{i=1}^Th_i(x) y^=T1i=1Thi(x)
    其中:T:基模型数量;h_i(x):第 i 个模型对样本 x 的预测值;y^:最终预测结果。

特点:所有模型权重相等,假设模型误差服从独立同分布;对异常值敏感(可通过截断平均改进)。

  • 加权平均(Weighted Averaging)
    y^=∑i=1Twihi(x),其中∑i=1Twi=1\hat{y}=\sum_{i=1}^Tw_ih_i(x),\quad\text{其中}\sum_{i=1}^Tw_i=1 y^=i=1Twihi(x),其中i=1Twi=1
    wi:第i个模型的权重,通常根据模型性能(如验证集准确率)动态分配。

    特点:高性能模型获得更高权重;需注意权重分配的合理性(避免过拟合验证集)。

[!TIP]

  • 算术平均假设误差服从高斯分布,但现实任务中误差可能呈现偏态或重尾分布。

  • 案例:在金融风险预测中,少数极端值的预测误差可能对简单平均产生灾难性影响。

  • 解决方案

    截断平均(Trimmed Mean):去掉最高/最低的预测值;

    分位数融合(Quantile Blending):直接集成不同分位数的预测结果。

(3) 学习法
  • 传统Stacking用基模型的输出训练元模型,但可能引入过拟合风险(尤其在基模型高度相关时)。
  • 我的实验发现
    • 使用低复杂度的元模型(如线性回归)反而比深度网络更稳定;
    • 对基模型输出做特征工程(如加入原始特征、交互项)比直接拼接更有效;
    • 对抗验证技巧:通过检测元模型是否过拟合基模型的噪声来调整训练策略。

3.3 关键对比与选择建议

方法适用场景优点缺点
简单平均模型性能相近的回归任务计算简单,抗过拟合对异常值和低质量模型敏感
加权平均模型性能差异显著的回归任务灵活利用模型差异性需额外计算权重,可能过拟合验证集
硬投票类别标签明确的分类任务无需概率输出,实现简单忽略模型置信度,易受多数噪声影响
软投票模型输出可靠概率的分类任务利用概率信息,结果更平滑依赖概率校准,计算复杂度略高

总结

以上就是今天要讲的内容,通过对吕欣老师《数据挖掘》教材中“集成学习”章节的系统学习与梳理,我对这一强大机器学习范式的核心思想和方法论有了更深刻的认识。

  1. 核心思想:协作优于单干
    集成学习的魅力在于其朴素而深刻的哲学:“弱者的联盟”。它通过构建并结合多个性能尚可的“弱学习器”,最终形成一个预测更精准、泛化能力更强的“强学习器”。这完美印证了“三个臭皮匠,赛过诸葛亮”的古老智慧。其成功的核心关键并非个体模型的极致性能,而在于模型之间的“多样性”,即模型误差的差异性和互补性。

  2. 方法论的三大支柱:
    集成学习主要围绕三大策略展开,各有其独特的工作机制与适用场景:
    (1) Bagging (如随机森林):通过并行 Bootstrap 抽样构建多个基学习器,并采用投票/平均法结合结果。其核心是降低方差,通过“民主决策”来平滑噪声、避免过拟合。
    (2) Boosting (如AdaBoost, GBDT):通过串行方式训练基学习器,每个新模型都专注于修正前序模型的错误,并动态调整样本权重。其核心是降低偏差,体现“知错能改”,逐步逼近复杂问题。
    (3) Stacking:引入“元学习器”来学习如何最优地组合多个基学习器的预测结果,如同一个“专家委员会”的决策机制,灵活性最高,但需谨慎防止过拟合。

  3. 结合策略是灵魂:
    如何将多个模型的输出转化为最终决策,是集成学习的精髓。投票法(硬投票、软投票)和平均法(简单平均、加权平均)是直观的策略,而其背后蕴含的是对模型置信度、性能差异以及误差分布的深刻考量。

总而言之,集成学习不仅是数据挖掘工具箱中一套高效且实用的算法集合,更是一种解决问题的系统性思维——通过协作与组合,将有限的个体能力汇聚成强大的集体智慧。吕欣教授的《数据挖掘》一书对此进行了极为清晰和富有洞见的阐述,极大地帮助我构建了系统性的知识框架,特此推荐给每一位对机器学习感兴趣的朋友。

作者:栗子同学、李同学

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/94322.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/94322.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

嵌入式知识篇---32GUI

要理解 32 位单片机的 GUI,咱们先从 “基础概念” 入手,再拆成 “为什么能跑 GUI”“核心组成”“怎么实现”“常用工具”“实际用途” 这几步讲,全程不用复杂术语,像聊日常用品一样说清楚。一、先搞懂 2 个基础概念在讲 “32 位单…

【iOS】SDWebImage第三方库源码学习笔记

前言之前在写项目时,经常用到SDWebImage这个第三方库来加载图片,并且了解到了这个第三方库在处理图片时自带异步下载和缓存功能,以及对cell复用的处理。这篇文章来系统学习一下SDWebImage第三方库的知识以及底层原理简介SDWebImage为UIImageV…

Linux --网络基础概念

一.网络发展独立模式:在早期计算机之间是相互独立的,机器之间的数据只能通过软硬盘来传输,这就代表无法同时完成任务,需要前面的计算机完成各自的任务经过硬盘传递数据再完成自己的任务,效率十分低下。网络互联&#x…

教育系统搭建攻略:线上知识付费与线下消课排课全解析

作为一名资深平台测评师,最近我挖到了一个教育机构的 “宝藏工具”—— 乔拓云教育系统。别看它名字低调,用起来那叫一个顺手,线上知识付费、线下消课排课全给你安排得明明白白,简直是机构老板和教务员的 “摸鱼神器”。多端口管理…

PMP项目管理知识点-①项目基本概念

目录 1.项⽬的定义 概念: 特点: 项⽬与运营的区别 项⽬特点: 运营特点: 2.项⽬管理的发展 3.项⽬、项⽬集与项⽬组合 结构层次 4.项⽬的关键组成部分 项⽬⽣命周期: 项⽬管理过程组: 项⽬阶段&…

Python内置函数全解析:30个核心函数语法、案例与最佳实践指南

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 持续学习,不断…

数据建模怎么做?一文讲清数据建模全流程

目录 一、需求分析 1. 搞清楚业务目标:这数据是要解决啥问题? 2. 明确数据边界:哪些数据该要,哪些不该要? 3. 弄明白使用场景:谁用这数据,怎么用? 二、模型设计 1. 第一步&…

胸部X光片数据集:健康及肺炎2类,14k+图像

胸部X光片数据集概述 数据集包含14090张图像,分为正常胸部X光3901张,肺炎胸部X光10189张。 标注格式:无标注,文件夹分类。 图像尺寸:640*640 正常胸部X光: 肺炎胸部X光: 数据采集: 拍摄方式:均为前后位(anterior-posterior)胸部X光,属患者常规临床护理的一部分…

MySQL數據庫開發教學(二) 核心概念、重要指令

書接上回:MySQL數據庫開發教學(一) 基本架構-CSDN博客 建議工具: Navicat Premium (收費 / 需破解):Navicat Premium | 管理和开发你的数据库 phpstudy 2018 (免費):phpStudy - Windows 一键部署 PHP 开发环境 小皮出品 前言 …

【40页PPT】数字工厂一体化运营管控平台解决方案(附下载方式)

篇幅所限,本文只提供部分资料内容,完整资料请看下面链接 https://download.csdn.net/download/2501_92808811/91716541 资料解读:【40页PPT】数字工厂一体化运营管控平台解决方案 详细资料请看本解读文章的最后内容。该资料围绕数字工厂一体…

数据产品(2)用户画像数据分析模型

目录 1 用户画像 2 RFM模型 (用户价值分群模型) 3 PSM 价格敏感度 4 精细化运营 1 用户画像 也称用户表标签,是基于用户行为分析获得的对用户的一种认知表达,即用户数据标签化,通过收集与分析用户的用户属性(年龄、性别、城市、职业、设备、状态)、用户偏好(购物偏好,听…

03_数据结构

第3课:数据结构 课程目标 掌握Python的基本数据结构:列表、元组、字典、集合学习字符串的高级操作方法理解不同数据结构的特点和适用场景 1. 列表(List) 1.1 列表的创建和基本操作 # 创建列表 fruits ["苹果", "香…

【JavaEE】多线程 -- CAS机制(比较并交换)

目录CAS是什么CAS的应用实现原子类实现自旋锁ABA问题ABA问题概述ABA问题引起的BUG解决方案CAS是什么 CAS (compare and swap) 比较并交换,CAS 是物理层次支持程序的原子操作。说起原子性,这就设计到线程安全问题,在代码的层面为了解决多线程…

The United Nations Is Already Dead

The United Nations Is Already Dead When children in Gaza rummage through rubble for food, when UN-run schools are reduced to dust, when the Security Council cannot even pass the mildest ceasefire resolution—blocked by a single veto— we must confront a br…

Kubernetes v1.34 前瞻:资源管理、安全与可观测性的全面进化

预计正式发布:2025年8月底 | 分类:Kubernetes 随着2025年8月底的临近,Kubernetes社区正紧锣密鼓地准备下一个重要版本——v1.34的发布。本次更新并非简单的功能叠加,而是在资源管理、安全身份、可观测性和工作负载控制等核心领域的…

用 Bright Data MCP Server 构建实时数据驱动的 AI 情报系统:从市场调研到技术追踪的自动化实战

前言 本文通过两个真实场景(云服务商对比与 AIGC 技术追踪),展示了如何使用 Bright Data MCP Server 与 Lingma IDE 构建一个具备实时网页数据抓取、结构化分析与自动化报告生成能力的 AI 工作流。通过简单的 API 调用与 JSON 配置&#xff…

牛顿第二定律的所有表达方式:1、线性表达 2、圆形表达 3、双曲线表达 4、抛物线表达5、数列表达

牛顿第二定律是经典力学中的核心定律,表述为:物体的加速度与所受合力成正比,与质量成反比,方向与合力方向相同。其基本矢量形式为: F⃗ma⃗ \vec{F} m \vec{a} Fma 其中,F⃗\vec{F}F 是合力(单…

【开发日记】SpringBoot 实现支持多个微信小程序的登录

在实际业务场景中,需要一个后台同时支持多个微信小程序的登录。例如,企业有多个不同业务的小程序,但希望统一在同一个后台系统里进行用户认证和数据处理。这时候,我们就需要一个灵活的方式来管理多个小程序的 appid 和 secret&…

Docker 容器(一)

Docker一、Docker是什么1.什么是Docker2.Docker特点3.比较虚拟机和容器二、Docker安装1.Docker​​三大核心组件​​2.安装步骤(Ubuntu)3.阿里云镜像加速三、Docker镜像1.什么是镜像2.UnionFS(联合文件系统)3.Docker镜像加载原理4…

容器安全实践(二):实践篇 - 从 `Dockerfile` 到 Pod 的权限深耕

在上一篇《容器安全实践(一):概念篇》中,我们深入探讨了容器安全的底层原理,并纠正了“容器天生安全”的误解。我们了解了 root 用户的双重身份,以及特权容器的危险性。 然而,仅仅了解这些概念…