《sklearn机器学习——聚类性能指标》Davies-Bouldin Index (戴维斯-博尔丁指数)

Davies-Bouldin Index (戴维斯-博尔丁指数)

简介

概念与定义

Davies-Bouldin Index是由David L. Davies和Donald W. Bouldin于1979年提出的一种用于评估聚类算法效果的内部指标。它通过计算每个簇内数据点之间的相似性和不同簇中心点的距离来衡量聚类结果的质量。DBI的值越低,表明聚类的效果越好。

计算方法

对于给定的数据集和其划分成的k个簇,DBI的计算公式如下:
DB=1k∑i=1kmax⁡j≠i(σi+σjd(ci,cj))DB = \frac{1}{k} \sum_{i=1}^{k} \max_{j \neq i} \left( \frac{\sigma_i + \sigma_j}{d(c_i, c_j)} \right)DB=k1i=1kj=imax(d(ci,cj)σi+σj)
其中,(\sigma_i)代表第(i)个簇内数据点到该簇中心点的平均距离,(c_i)是第(i)个簇的中心点,而(d(c_i, c_j))表示簇(i)和簇(j)中心点之间的距离。

使用场景

数据探索阶段

在数据分析的初期阶段,当尝试理解数据结构并寻找合适的聚类数时,DBI可以作为一种有效的工具来评估不同的聚类方案。

选择最佳聚类数

DBI常被用来比较不同数量的簇所得到的聚类效果,帮助确定最佳的簇数量。

优点

直观易懂

DBI的计算基于简单的数学概念,易于理解和实现。

缺点

对非球形簇的限制

由于DBI依赖于簇内点间距离和簇中心点间的距离,因此对于形状不规则或大小差异较大的簇,DBI可能无法提供准确的评价。


sklearn.metrics.davies_bouldin_score函数

sklearn.metrics.davies_bouldin_score是用于评估聚类效果的一个指标,基于Davies-Bouldin Index来衡量聚类质量。该分数越低,表示聚类效果越好。

核心作用

  • 评估聚类算法的效果,通过计算簇内相似性与簇间分离度的比率。

函数参数

  • X: {array-like, sparse matrix} of shape (n_samples, n_features)
    • 特征数组或矩阵。
  • labels: array-like of shape (n_samples,)
    • 每个样本的类别标签。

返回值

  • score: float
    • Davies-Bouldin Index的值,数值越低表示聚类效果越好。

内部数学形式

对于每个簇CiC_iCi,定义其平均距离到其他点的距离为:
Rij=σi+σjd(μi,μj)R_{ij} = \frac{\sigma_i + \sigma_j}{d(\mu_i, \mu_j)}Rij=d(μi,μj)σi+σj
其中,
-σi\sigma_iσi是簇CiC_iCi的标准差(或簇内散度)。

  • μi\mu_iμi 是簇CiC_iCi的质心。
  • d(μi,μj)d(\mu_i, \mu_j)d(μi,μj)是两个簇质心间的欧几里得距离。

最终的Davies-Bouldin指数为所有簇对的最大RijR_{ij}Rij值的平均。

示例代码

from sklearn.cluster import KMeans
from sklearn.metrics import davies_bouldin_score
from sklearn.datasets import make_blobs# 创建模拟数据集
X, _ = make_blobs(n_samples=1000, centers=5, n_features=2, random_state=42)# 使用KMeans进行聚类
kmeans = KMeans(n_clusters=5, random_state=42).fit(X)# 计算Davies-Bouldin指数
db_index = davies_bouldin_score(X, kmeans.labels_)print(f"Davies-Bouldin Index: {db_index}")

输出

Calinski-Harabasz 指数: 2157.53

代码说明

  • make_blobs : 生成一个具有预设簇结构的二维数据集,便于演示。
  • KMeans : 使用 K-Means 算法进行聚类。n_init=10 确保算法运行10次并选择最优结果。
  • calinski_harabasz_score(X, cluster_labels) :
    • X : 输入的数据特征矩阵。
    • cluster_labels : 聚类算法产生的标签。
    • 该函数计算并返回 Calinski-Harabasz 指数。
  • 输出: 打印出计算得到的指数值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/96041.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/96041.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QT的学习(一)

前言:距离上一次摸QT已经快10年了,时光匆匆,现在已经到6.9版本了 一、安装QT 1.1、下载链接 https://mirrors.tuna.tsinghua.edu.cn/qt/official_releases/online_installers/ 这是国内镜像,比官网快很多了,官网那个…

亚洲数字能源独角兽的 “安全密码”:Parasoft为星星充电筑牢软件防线

当你在充电桩前等待爱车满电时,是否想过:这看似简单的充电过程,背后藏着多少软件代码的精密协作?作为亚洲数字能源领域的头部企业,星星充电用 “移动能源网” 连接着千万用户与新能源世界,而支撑这一切的&a…

安装Codex(需要用npm)

查看已经安装的包 npm list -g --depth0 npm uninstall -g anthropic-ai/claude-code 如果要卸载什么东西 安装Codex :npm i -g openai/codex https://openai.com/zh-Hant/codex/ 之后登录gpt账号,完成后就是下面的样子

HarmonyOS 开发学习分享:从入门到认证的完整路径

HarmonyOS 开发学习分享:从入门到认证的完整路径 大家好!我是赵老师,一个深耕鸿蒙生态的开发者。最近刚通过鸿蒙生态赋能资源丰富度建设活动的讲师认证,想和大家分享一下 HarmonyOS 开发的学习心得和认证经验。 我的鸿蒙开发经历作…

使用Spring Boot DevTools快速重启功能

背景 在Spring Boot项目中,修改一些简单的代码后,每次手动终止并启动整个项目比较繁琐且消耗时间。Spring Boot DevTools 提供了开发时的热重启功能,使得在开发过程中修改代码后可以快速生效,而无需手动重启整个应用,可…

7.4Element Plus 分页与表格组件

el-pagination el-table 这两个组件是后台管理系统中最常用的数据展示与交互组合&#xff0c;通常配合使用实现 分页加载、排序、筛选、操作 等功能。一、分页组件 el-pagination用于控制大量数据的分页展示。✅ 基本结构<el-paginationv-model:current-page"currentPa…

搭建机器学习模型的数据管道架构方案

本篇文章Designing Data Pipeline Architectures for Machine Learning Models适合对数据管道架构感兴趣的读者&#xff0c;亮点在于详细解析了传统数据仓库、云原生数据湖和现代湖仓这三种架构&#xff0c;帮助理解如何将原始数据转化为可操作的预测。文中还强调了不同架构的优…

GitHub 热榜项目 - 日榜(2025-09-06)

GitHub 热榜项目 - 日榜(2025-09-06) 生成于&#xff1a;2025-09-06 统计摘要 共发现热门项目&#xff1a;15 个 榜单类型&#xff1a;日榜 本期热点趋势总结 本期GitHub热榜显示AI自动化与安全运维为核心趋势。Bytebot、EvolutionAPI等AI代理项目凸显自然语言交互和容器化…

Homebrew执行brew install出现错误(homebrew-bottles)

问题描述 在使用homebrew安装软件时&#xff0c;出现如下报错&#xff1a; Downloading https://mirrors.aliyun.com/homebrew/homebrew-bottles/bottles-portable-ruby/portable ruby-3.4.5.arm64_big_sur.bottle.tar.gz curl: (22) The requested URL returned error: 404 …

23种设计模式——工厂方法模式(Factory Method Pattern)详解

✅作者简介&#xff1a;大家好&#xff0c;我是 Meteors., 向往着更加简洁高效的代码写法与编程方式&#xff0c;持续分享Java技术内容。 &#x1f34e;个人主页&#xff1a;Meteors.的博客 &#x1f49e;当前专栏&#xff1a;设计模式 ✨特色专栏&#xff1a;知识分享 &#x…

NPU边缘推理识物系统

目录 NPU边缘推理识物系统 一、项目简介 二、硬件介绍 三、软件设计 1、底层NPU推理代码 2、应用层QT显示代码 四、项目成果展示 NPU边缘推理识物系统 一、项目简介 物品分类是计算机视觉的重要技术&#xff0c;本项目的核心是&#xff1a;使用NPU&#xff08;神经网络…

C# WinForm分页控件实现与使用详解

C# WinForm分页控件实现与使用详解概述在WinForms应用程序开发中&#xff0c;数据分页是常见的需求。本文将介绍如何实现一个功能完整的分页控件&#xff0c;并在窗体中如何使用该控件进行数据分页展示。分页控件实现核心属性与字段public partial class PageControl : UserCon…

高级 ACL 有多强?一个规则搞定 “IP + 端口 + 协议” 三重过滤

一、实验拓扑及描述 二、实验需求 1、完成拓扑中各设备的基础配置&#xff0c;使得全网互通&#xff1b; 2、在上一个需求的基础上&#xff0c;在路由器上部署高级ACL&#xff0c;使得Client1无法访问Server的HTTP服务&#xff0c;但是PC1依然能够访问服务器及其他节点&#xf…

支持多材质密度设置的金属重量计算使用指南

传统手工计算各种型材&#xff08;如钢管、角钢、钢板等&#xff09;的重量繁琐且容易出错。 它的体积小巧&#xff0c;不足100KB&#xff0c;运行不占内存&#xff0c;绿色免安装&#xff0c;双击即开&#xff0c;使用便捷。 可计算钢管、钢板、型钢、角钢等常见型材的重量&a…

在Spring Boot中使用H2数据库

好处 程序启动时自动创建数据库数据表。 使用步骤 引入依赖&#xff1a; <dependency><groupId>com.h2database</groupId><artifactId>h2</artifactId><scope>runtime</scope></dependency><dependency><groupId&…

Day21_【机器学习—决策树(2)—ID3树 、C4.5树、CART树】

一、ID3 决策树1. 核心思想使用信息增益&#xff08;Information Gain&#xff09;作为特征选择的标准&#xff0c;递归地构建决策树。2. 特征选择标准信息增益&#xff08;IG&#xff09;&#xff1a;选择使信息增益最大的特征进行划分。3. 优点算法简单&#xff0c;易于理解。…

2025计算机视觉新技术

CLIP / BLIP-3 类「视觉-语言大模型」 • 是什么&#xff1a;让网络自己学会“看图说话”&#xff0c;zero-shot 就能分类、检测、检索。 • 能干什么&#xff1a;不写训练代码&#xff0c;直接一句中文 prompt 就把商品图分成 500 类。 • 落地难度&#xff1a;★☆☆&#xf…

[光学原理与应用-431]:非线性光学 - 能生成或改变激光波长的物质或元件有哪些?

要生成或改变激光波长&#xff0c;可依赖增益介质、非线性光学元件、调谐元件及特殊激光器设计&#xff0c;以下是一些关键物质和元件及其作用机制&#xff1a;一、增益介质&#xff1a;波长的“决定者”增益介质是激光器的核心&#xff0c;其原子或分子的能级结构直接决定输出…

接口权限验证有哪些方式

接口权限验证是保障 API 安全的核心机制&#xff0c;常见的方式有以下几类&#xff0c;适用于不同场景和安全需求&#xff1a; 1. 基于令牌&#xff08;token&#xff09;的验证 &#xff08;1&#xff09;JWT&#xff08;JSON Web Token&#xff09; 原理&#xff1a; 服务器验…

Go开发的自行托管代理加速服务:支持Docker与GitHub加速

HubProxy&#xff1a;一站式解决Docker与GitHub访问难题的轻量级代理服务作为开发者&#xff0c;我们经常遇到这些问题&#xff1a;Docker镜像拉取速度慢得让人抓狂&#xff0c;GitHub Release文件下载到一半断开&#xff0c;或者某些境外容器仓库完全无法访问。最近发现的hubp…