【漫话机器学习系列】274.基尼指数(Gini Index)

决策树中的基尼指数(Gini Index)详解 —— 从公式理解到实际应用

在构建决策树模型时,一个核心问题是:如何选择最优的特征来进行节点划分?
这就涉及到了“划分准则”的问题。常见的准则有信息增益、信息增益率以及本文的主角:基尼指数(Gini Index)

在这篇文章中,我们将借助一张手绘风图解,深入浅出地理解基尼指数的含义、公式构成、应用场景及其在构建决策树过程中的作用。


一、什么是基尼指数?

基尼指数(Gini Index)是一种用于衡量一个数据集合“纯度”的指标,主要用于分类问题中的决策树构建,尤其是 CART(Classification and Regression Tree)算法。

通俗理解:

基尼指数越小,说明这个集合中样本类别越“集中”,即越“纯”;反之,值越大,说明类别混杂,纯度低。


二、基尼指数的数学定义

参考图中的公式:

公式如下:

G = \sum_{k=1}^{K} \hat{p}_{mk} (1 - \hat{p}_{mk})

各符号说明如下:

  • G:某个节点的基尼指数

  • K:类别的总数(比如二分类问题中 K = 2)

  • \hat{p}_{mk}:在第 m 个节点中,属于第 k 类的样本比例

举例说明:

假设我们有一个节点,其中 70% 是正类(positive),30% 是负类(negative),那么:

G = 0.7(1-0.7) + 0.3(1-0.3) = 0.21 + 0.21 = 0.42

如果节点中全部为正类,即 \hat{p}_{mk}=1,那么:

G = 1(1 - 1) = 0

也就是说,这个节点是完全纯的(只含一个类别),基尼指数为 0。


三、基尼指数的直觉理解

图中给出了简洁直观的解释:

G 的值越小,节点中的分布就越平均(即越纯)
G 的值越大,说明分布越分散(即越杂乱)

这是决策树在每一个节点要选择分裂的依据:选择使得 G 值最小的特征和分裂方式,从而得到更“纯”的子集。


四、基尼指数的应用场景

  • 在 CART 决策树中,基尼指数是默认的分裂指标。

  • 对于分类任务,尤其是二分类问题,基尼指数表现良好,计算速度快。

  • 相比信息增益(用于 ID3),它对多分类特征不太偏倚,因此广泛应用。


五、与其他指标的对比

指标定义方式偏好特性应用模型
信息增益熵的减少偏向类别多的特征ID3
增益率信息增益/特征熵对类别数较多的惩罚C4.5
基尼指数p(1-p)偏向二元分裂,计算快速CART 分类树

六、图解亮点总结

图中总结如下重点:

  • 每个节点使用基尼指数,决定最佳的划分特征;

  • 公式中每一项代表某一类别的“混乱度”;

  • 基尼指数是衡量随机方法中分类纯度的一种工具。


七、总结与建议

  • 什么时候用基尼指数?
    当你使用的是 CART 决策树时,或者在意分类速度、效率优先时。

  • 为什么选择基尼指数?
    相比熵的计算(涉及对数),Gini 指数更易实现、速度更快,且在许多实际场景下效果相当。

  • 下一步建议

    • 实现一个基于 Gini 指数的二分类决策树;

    • 用 sklearn 决策树时,设置 criterion='gini' 来启用它。


参考资料

  • Chris Albon 的手绘教程;

  • 《统计学习方法》第九章;

  • sklearn 官方文档。


如果你觉得这篇文章对你有帮助,欢迎点赞 + 收藏 + 关注!后续我会继续发布更多图解机器学习的内容!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/81957.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

R语言学习--Day07--T分布与T检验

昨天我们介绍了R中用于对数据进行分类的聚类分析的方法,接下来我们来看T分布。 T分布 T分布适用于帮我们估计整组数据(较小的数据量,一般小于30)的真实值在哪一个区间,具体是计算置信区间(一般为95%&#…

数据结构与算法-线性表-双向链表(Double Linked List)

1 线性表 1.4 双向链表(Double Linked List) 双向链表的结点中有两个指针域,一个指向直接后继,另一个指向直接前驱,主要是为了解决前向查找的问题。 双向链表结构: 书籍和视频教程都只讲解了插入和删除的…

甘特图实例 dhtmlxGantt.js

本文介绍了如何使用dhtmlxGantt库创建一个基础的甘特图示例,并对其进行汉化和自定义配置。首先,通过引入dhtmlxgantt.css和dhtmlxgantt.js文件初始化甘特图。接着,通过设置gantt.i18n.setLocale("cn")实现核心文本的汉化&#xff0…

C++23 新增扁平化关联容器详解

文章目录 一、引言已有关联容器回顾新容器的引入原因 二、std::flat_set定义与特性代码示例适用场景 三、std::flat_multiset定义与特性代码示例适用场景 四、std::flat_map定义与特性代码示例适用场景 五、std::flat_multimap定义与特性代码示例适用场景 六、与其他容器的比较…

使用zap,对web应用/API接口 做安全检测

https://www.zaproxy.org/getting-started/ 检测方法 docker pull ghcr.io/zaproxy/zaproxy:stable# 执行baseline测试 docker run -t ghcr.io/zaproxy/zaproxy:stable zap-baseline.py \ -t https://baseline.yeshen.org# 执行api测试 docker run -t ghcr.io/zaproxy/zaproxy…

Qt—模态与非模态对话框

Qt—模态与非模态对话框 核心概念 ​模态对话框​​:强制用户优先处理当前窗口,阻塞指定范围的用户交互。​非模态对话框​​:允许用户自由切换窗口,无交互限制。 一、模态对话框类型与行为 1. 应用级模态(Applica…

Axure高保真CRM客户关系管理系统原型

一套出色的CRM(客户关系管理)系统,无疑是企业管理者掌控客户动态、提升销售业绩的得力助手。今天,就为大家介绍一款精心打造的Axure高保真CRM客户关系管理系统原型模板,助你轻松开启高效客户管理之旅。 这款CRM原型模…

【羊圈——状压 + DP / 记忆化搜索DP】

题目 一般DP代码&#xff08;注意&#xff0c;这里只能向外推(起始状态是f(1,0)&#xff0c;不能向内推&#xff08;不然会导致之前的羊圈被割裂&#xff09;&#xff09; #include <bits/stdc.h> using namespace std;const int MAX_N 210; const int MAX_M 16;int n…

讲解Mysql InnoDB的MVCC

1. 定义 MVCC是多版本并发控制&#xff08;Multi - Version Concurrency Control&#xff09;的缩写。它是InnoDB存储引擎实现高并发控制的一种机制。在数据库系统中&#xff0c;多个事务可能会同时对数据进行读写操作&#xff0c;而MVCC通过为数据行保存多个版本来解决并发事务…

ZeroMQ Sockets介绍及应用示例

1. 概念解释 ZeroMQ Sockets提供了一种类标准套接字&#xff08;socket-like&#xff09;的 API&#xff0c;是消息导向的通信机制&#xff0c;基于 TCP/UDP 等传输层协议&#xff0c;但封装了底层细节&#xff08;如连接管理、消息路由、缓冲区等&#xff09;&#xff0c;提供…

语音合成之十五 语音合成(TTS)分句生成拼接时的响度一致性问题:现状、成因与对策

语音合成&#xff08;TTS&#xff09;分句生成拼接时的响度一致性问题&#xff1a;现状、成因与对策 引言&#xff1a;分段式文本转语音中的响度一致性挑战业界对响度差异问题的认知拼接语音片段中响度变化的根本原因分段拼接的固有挑战各片段预测韵律特征的差异文本特征和模型…

Android中Binder驱动作用?

Binder驱动的作用与核心功能 Binder驱动是Android系统中实现进程间通信&#xff08;IPC&#xff09;的核心底层组件&#xff0c;它工作于Linux内核层&#xff0c;负责管理跨进程通信的建立、数据传输、资源同步等关键任务。以下是其核心作用及实现细节&#xff1a; 1. ​​进程…

网络学习-TCP协议(七)

一、TCP协议 TCP&#xff08;Transmission Control Protocol&#xff0c;传输控制协议&#xff09;是一种面向连接的、可靠的、基于字节流的传输层通信协议。 1、三次握手 客户端&#xff1a; 1、先发起连接&#xff0c;发送SYN置1&#xff0c;seqnum12345(随机值)----半连接…

【Python 基础与实战】从基础语法到项目应用的全流程解析

&#xff08;1&#xff09;列表和元组的区别是什么?如何从列表创建元组?如何从元组创建列表? 列表和元组的区别&#xff1a; 可变性&#xff1a;列表是可变的&#xff0c;即可以对列表进行元素的增、删、改操作。例如&#xff0c;可以使用append()方法添加元素&#xff0c;r…

Docker部署Zookeeper集群

简介 ZooKeeper 是一个开源的分布式协调服务&#xff0c;由 Apache 软件基金会开发和维护。它主要用于管理和协调分布式系统中的多个节点&#xff0c;以解决分布式环境下的常见问题&#xff0c;如配置管理、服务发现、分布式锁等。ZooKeeper 提供了一种可靠的机制&#xff0c;…

【学习笔记】Sophus (Python) 使用文档

以下是一份针对 Sophus 库的 Python 使用文档&#xff0c;涵盖基础概念、安装方法、核心功能及代码示例。内容围绕 SO3&#xff08;3D旋转群&#xff09;和 SE3&#xff08;3D刚体变换群&#xff09;展开&#xff0c;适合机器人学、SLAM、三维几何等领域。 Sophus (Python) 使用…

计算机图形学:(三)MVP变换扩展

Three.js WebGL允许把JavaScript和OpenGL 结合在一起运用&#xff0c;但使用WebGL原生的API来写3D程序非常的复杂&#xff0c;同时需要相对较多的数学知识&#xff0c;对于前端开发者来说学习成本非常高。 Three.js是基于webGL的封装的一个易于使用且轻量级的3D库&#xff0c;T…

MySQL数据库操作合集

一、SQL通用语法 ①SQL语句可以单行或多行书写&#xff0c;以分号结尾。 ②SQL语句可以使用空格/缩进来增强语句可读性。 ③MySQL数据库的SQL语句不区分大小写&#xff0c;关键字建议使用大写。 ④注释&#xff1a; 单行注释&#xff1a; -- 注释内容 或 # 注释内容&#…

传统工程项目管理与业财一体化管理的区别?

在工程项目管理领域&#xff0c;传统管理模式与新兴的业财一体化管理模式正在形成鲜明对比。随着数字化转型的加速&#xff0c;工程行业对高效、透明、协同的管理需求日益迫切。传统工程项目管理依赖人工操作、分散系统和分模块管理&#xff0c;难以应对复杂项目的全生命周期需…

敦煌网测评从环境搭建到风控应对,精细化运营打造安全测评体系

自养号测评&#xff0c;抢占流量为快速提升产品权重和销量&#xff0c;很多卖家常采用自己养号补单测评的方式&#xff0c;技术搭建需要很多要素 一、硬件参数的关联性 在我们使用设备进行注册或操作账号的过程中&#xff0c;系统会记录下大量的系统与网络参数&#xff0c;其中…