遥感机器学习入门实战教程|Sklearn案例⑤:集成学习方法全览

在机器学习的实际应用中,单一分类器往往存在局限:比如决策树容易过拟合,kNN 对噪声敏感,逻辑回归在高维数据下收敛慢。为了提升整体效果,我们通常会采用 集成学习(Ensemble Learning)

这篇文章将基于 sklearn 框架,系统演示 Bagging、Boosting、Voting、Stacking 四类常见的集成学习方法,并在经典的 KSC 高光谱数据集 上做实验对比。

🧩 1. 实验思路

  • 数据集:KSC 高光谱影像及其地物标注
  • 预处理:标准化 + PCA 降维(仅作为特征压缩,取 30 维)
  • 分类器:随机森林(RF)、AdaBoost、GBDT、Bagging(kNN)、Voting、Stacking
  • 评价指标:Overall Accuracy (OA) 与 Kappa 系数

⚙️ 2. 完整代码

下面给出本次实验的完整代码,可以直接运行。请注意修改 DATA_DIR 为你存放数据的路径。

# -*- coding: utf-8 -*-
"""
Sklearn案例⑤:集成学习方法全览
- 演示 Bagging / Boosting / Voting / Stacking
"""
import os, numpy as np, scipy.io as sio, matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.ensemble import (RandomForestClassifier, AdaBoostClassifier,GradientBoostingClassifier, BaggingClassifier,VotingClassifier, StackingClassifier)
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, cohen_kappa_score
import matplotlib
matplotlib.rcParams['font.family'] = 'SimHei'
matplotlib.rcParams['axes.unicode_minus'] = False# ===== 参数设置 =====
DATA_DIR = "你的数据路径"   # 修改为存放 KSC.mat 和 KSC_gt.mat 的文件夹
PCA_DIM, TRAIN_RATIO, SEED = 30, 0.3, 42# ===== 1. 加载数据 =====
X = sio.loadmat(os.path.join(DATA_DIR, "KSC.mat"))["KSC"].astype(np.float32)
Y = sio.loadmat(os.path.join(DATA_DIR, "KSC_gt.mat"))["KSC_gt"].astype(int)
h, w, b = X.shape
coords = np.argwhere(Y != 0)
labels = Y[coords[:,0], coords[:,1]] - 1
num_classes = labels.max() + 1# ===== 2. 划分训练/测试 =====
train_ids, test_ids = train_test_split(np.arange(len(coords)), train_size=TRAIN_RATIO,stratify=labels, random_state=SEED
)
train_pixels = X[coords[train_ids,0], coords[train_ids,1]]
test_pixels  = X[coords[test_ids,0], coords[test_ids,1]]# ===== 3. 标准化 + PCA(仅预处理) =====
scaler = StandardScaler().fit(train_pixels)
pca = PCA(n_components=PCA_DIM, random_state=SEED).fit(scaler.transform(train_pixels))
X_train = pca.transform(scaler.transform(train_pixels))
X_test  = pca.transform(scaler.transform(test_pixels))
y_train, y_test = labels[train_ids], labels[test_ids]# ===== 4. 定义多个集成学习模型 =====
models = {"RF": RandomForestClassifier(n_estimators=20, random_state=SEED, n_jobs=-1),"AdaBoost": AdaBoostClassifier(n_estimators=20, random_state=SEED),"GBDT": GradientBoostingClassifier(n_estimators=20, random_state=SEED),"Bagging(kNN)": BaggingClassifier(KNeighborsClassifier(5), n_estimators=30, random_state=SEED),"Voting(SVM+kNN+LR)": VotingClassifier(estimators=[("svm", SVC(probability=True)), ("knn", KNeighborsClassifier(5)),("lr", LogisticRegression(max_iter=1000))],voting="soft"),"Stacking(SVM+kNN->LR)": StackingClassifier(estimators=[("svm", SVC(probability=True)), ("knn", KNeighborsClassifier(5))],final_estimator=LogisticRegression(max_iter=200))
}# ===== 5. 训练与评估 =====
results = {}
for name, clf in models.items():clf.fit(X_train, y_train)y_pred = clf.predict(X_test)oa = accuracy_score(y_test, y_pred)kappa = cohen_kappa_score(y_test, y_pred)results[name] = (oa, kappa)print(f"{name:20s} OA={oa*100:.2f}%  Kappa={kappa:.4f}")# ===== 6. 可视化比较 =====
plt.figure(figsize=(8, 5), dpi=110)
names      = list(results.keys())
oa_vals    = [results[k][0] * 100 for k in names]
kappa_vals = [results[k][1] * 100 for k in names]
x = np.arange(len(names))
plt.plot(x, oa_vals, marker='o', linewidth=2.2, label='OA (%)')
plt.plot(x, kappa_vals, marker='s', linewidth=2.2, linestyle='--', label='Kappa × 100')
plt.xticks(x, names, rotation=20, ha='right')
plt.ylabel("Accuracy / Score (%)")
plt.title("Sklearn 集成学习方法对比")
plt.grid(alpha=0.25, linestyle='--')
for xi, yi in zip(x, oa_vals):plt.text(xi, yi + 0.6, f"{yi:.1f}", ha='center', fontsize=9)
for xi, yi in zip(x, kappa_vals):plt.text(xi, yi + 0.6, f"{yi:.1f}", ha='center', fontsize=9)
plt.legend(frameon=False, ncol=2, loc='upper left')
plt.tight_layout()
plt.show()

📊 3. 实验结果与分析

运行后会输出每个模型的分类精度(OA)和 Kappa 系数,并绘制对比折线图。实验表明:

  • RF、Bagging:能有效减少过拟合,结果比较稳健;
  • AdaBoost、GBDT:对复杂边界表现较好,整体精度有提升;
  • Voting:结合了 SVM、kNN、逻辑回归的优势,适合多类别任务;
  • Stacking:通过“元学习器”进一步优化,往往能获得更平衡的结果。

在这里插入图片描述
在这里插入图片描述

💡 4. 总结

通过本实验我们可以看到:

  1. sklearn 提供了 完整的集成学习工具箱,不同方法调用方式统一,便于快速切换和比较。
  2. 集成学习能够显著提升模型的鲁棒性,尤其适合高维、类别不平衡的数据集。
  3. Voting 和 Stacking 等方法,能够发挥多模型的互补性,往往比单一模型更可靠。

未来,我们还可以在此基础上:

  • 尝试更多基学习器(如深度学习特征)
  • 结合网格搜索进行超参数优化
  • 将集成学习与迁移学习结合,应用到更大规模的遥感分类任务

欢迎大家关注下方我的公众获取更多内容!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/920017.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/920017.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型在垂直场景中的创新应用:搜索、推荐、营销与客服的新玩法

1. 引言 背景介绍:简述大模型(如GPT、BERT等)的发展历程及其在AI领域的核心作用,强调其在垂直场景中的潜力。 主题聚焦:说明本文将深入探讨搜索、推荐、营销、客服四大场景,分析大模型带来的创新开发方式。 目的与意义:阐述新玩法如何提升效率、增强用户体验,并推动行业…

华为仓颉语言的class(类)初步

华为仓颉语言的class(类)初步 class 概念 【官方文档 https://cangjie-lang.cn/docs?url%2F1.0.0%2Fuser_manual%2Fsource_zh_cn%2Fclass_and_interface%2Fclass.html 】 class 是仓颉面向对象体系的核心,用来描述“引用类型”对象。与 s…

健康常识查询系统|基于java和小程序的健康常识查询系统设计与实现(源码+数据库+文档)

健康常识查询系统 目录 基于java和小程序的健康常识查询系统设计与实现 一、前言 二、系统设计 三、系统功能设计 小程序功能设计 后台功能设计 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍&#xf…

MySQL的高可用+MHA

即MySQL 主从复制高可用架构,是一套优秀的MySQL 高可用解决方案,由日本 DeNA 公司 youshimaton 开发,主要用于保障 MySQL 数据库在主服务器出现故障时,能快速进行主从切换,减少数据库服务中断时间。其核心特点包括&…

淘宝pc端首页做了哪些性能优化?

淘宝PC端首页作为中国电商领域流量最大的页面之一,其性能优化手段可以说是业界标杆,非常全面和深入。这些优化不是单一技术,而是一个完整的体系。 我们可以从以下几个层面来分析和理解淘宝首页所做的性能优化: 一、核心指标与整体…

让医学数据更直观——MedCalc 23.1.7 最新版使用体验

软件介绍 MedCalc 23.1.7是一款功能强大的生物医学研究统计软件,专为医学科研人员和医疗保健专家设计。它提供了丰富的统计分析工具和方法,旨在帮助用户更好地分析和解释医学数据。以下是该软件的一些主要特点: 一、数据导入和管理 支持导…

Text2SQL、ChatBI简介

概述 传统BI的三大核心瓶颈: 问数之难:不同用户往往存在个性化的分析逻辑,尽管企业内部已经创建大量报表和看板,但仍然无法完全满足业务部门对数据的个性化需求。但传统BI门槛较高,非技术人员在统一培训前&#xff0…

神经网络中 标量求导和向量求导

0. 引出问题 在神经网络反向传播过程中 loss [loss₁,loss₂, loss₃],为什么 ∂loss/∂w ∂loss₁/∂w ∂loss₂/∂w ∂loss₃/∂w ∂loss₁/∂w 和 loss 维度一样都是三位向量 ,[∂loss₁/∂w, ∂loss₂/∂w, ∂loss₃/∂w] 就变成3*3的矩阵 如下所…

tcpdump命令打印抓包信息

tcpdump命令打印抓包信息 下面是在服务器抓取打印服务端7701端口打印 rootgb:/home/gb# ifconfig -a eth0: flags4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500inet 10.250.251.197 netmask 255.255.255.0 broadcast 10.250.251.255inet6 fe80::76fe:48ff:fe94:5a5 …

Mysql-经典实战案例(13):如何通过Federated实现跨实例访问表

实现原理&#xff1a;使用Federated引擎本创建一个链接表实现&#xff0c;但是Federated 引擎只是一个按列的顺序和类型解析远程返回的数据流准备工作&#xff1a; 1. 本地库启用 Federated 引擎查看是否已启用&#xff1a; SHOW ENGINES;如果Federated 引擎的 Support 是 YES …

Linux -- 动静态库

一、什么是库1、动静态库概念# 库是写好的现有的&#xff0c;成熟的&#xff0c;可以复⽤的代码。现实中每个程序都要依赖很多基础的底层库&#xff0c;不可能每个⼈的代码都从零开始&#xff0c;因此库的存在意义⾮同寻常。# 本质上来说库是⼀种可执⾏代码的⼆进制形式&#x…

Linux笔记---单例模式与线程池

1. 单例模式单例模式是一种常用的设计模式&#xff0c;它确保一个类只有一个实例&#xff0c;并提供一个全局访问点来获取这个实例。这种模式在需要控制资源访问、管理共享状态或协调系统行为时非常有用。单例模式的核心特点&#xff1a;私有构造函数&#xff1a;防止外部通过n…

Linux中的指令

1.adduseradduser的作用是创立一个新的用户。当我们在命令行中输入1中的指令后&#xff0c;就会弹出2中的命令行&#xff0c;让我们设立新的密码&#xff0c;紧接着就会让我们再次输入新的密码&#xff0c;对于密码的输入它是不会显示出来的&#xff0c;如果输入错误就会让我们…

【n8n】Docker容器中安装ffmpeg

容器化部署 n8n 时&#xff0c;常常会遇到一些环境依赖问题。缺少 docker 命令或无法安装 ffmpeg 是较为常见的场景&#xff0c;如果处理不当&#xff0c;会导致流程执行受限。 本文介绍如何在 n8n 容器中解决 docker 命令不可用和 ffmpeg 安装受限的问题&#xff0c;并给出多…

【基础算法】初识搜索:递归型枚举与回溯剪枝

文章目录一、搜索1. 什么是搜索&#xff1f;2. 遍历 vs 搜索3. 回溯与剪枝二、OJ 练习1. 枚举子集 ⭐(1) 解题思路(2) 代码实现2. 组合型枚举 ⭐(1) 解题思路请添加图片描述(2) 代码实现3. 枚举排列 ⭐(1) 解题思路(2) 代码实现4. 全排列问题 ⭐(1) 解题思路(2) 代码实现一、搜…

Node.js异步编程——async/await实现

一、async/await基础语法 在Node.Js编程中,async关键字用于定义异步函数,这个异步函数执行完会返回一个Promise对象,异步函数的内部可以使用await关键字来暂停当前代码的继续执行,直到Promise操作完成。 在用法上,async关键字主要用于声明一个异步函数,await关键字主要…

搭建一个简单的Agent

准备本案例使用deepseek&#xff0c;登录deepseek官网&#xff0c;登录账号&#xff0c;充值几块钱&#xff0c;然后创建Api key可以创建虚拟环境&#xff0c;python版本最好是3.12&#xff0c;以下是文件目录。test文件夹中&#xff0c;放一些txt文件做测试&#xff0c;main.p…

uv,下一代Python包管理工具

什么是uv uv&#xff08;Universal Virtual&#xff09;是由Astral团队&#xff08;知名Python工具Ruff的开发者&#xff09;推出的下一代Python包管理工具&#xff0c;使用Rust编写。它集成了包管理、虚拟环境、依赖解析、Python版本控制等功能&#xff0c;它聚焦于三个关键点…

单片机的输出模式推挽和开漏如何选择呢?

推挽和开漏是单片机的输出模式&#xff0c;属于I/O口配置的常见类型。开漏&#xff08;Open-Drain&#xff09;和推挽&#xff08;Push-Pull&#xff09;是两种根本不同的输出电路结构&#xff0c;理解它们的区别是正确使用任何单片机&#xff08;包括51和STM32&#xff09;GPI…

java18学习笔记-Simple Web Server

408:Simple Web Server Python、Ruby、PHP、Erlang 和许多其他平台提供从命令行运行的开箱即用服务器。这种现有的替代方案表明了对此类工具的公认需求。 提供一个命令行工具来启动仅提供静态文件的最小web服务器。没有CGI或类似servlet的功能可用。该工具将用于原型设计、即…