机器学习——聚类算法

机器学习——聚类算法

pingmian/2025/8/3 15:34:53/文章来源:https://blog.csdn.net/Xyz_Overlord/article/details/148409772

一、聚类的概念

根据样本之间的相似性，将样本划分到不同的类别中的一种无监督学习算法。

细节：根据样本之间的相似性，将样本划分到不同的类别中；不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法有欧式距离法。聚类算法的目的是在没有先验知识的情况下，自动发现数据集中的内在结构和模式。计算样本和样本之间的相似性，一般使用欧式距离。

二、聚类算法分类

根据聚类颗粒度分类：细粒度和粗粒度。

根据实现方法分类：

基于划分的聚类：K-means算法->按照质心(一个簇的中心位置,通过均值计算)分类；

基于层次的聚类：DIANA（自顶向下）AGNES（自底向上）；

基于密度的聚类: DBSCAN算法

......

三、Kmeans算法流程/原理

K值的含义：表示聚类个数，参数n_clusters就是指定k值的。

API：sklearn.cluster.KMeans

流程：1.事先确定常数k，即最终聚类类别数；

2.随机选择k个样本作为初始聚类中心；

3.计算每个样本到k个中心的距离，选择最近的聚类中心点作为标记类别；

4.根据每个类别中的样本点，重新计算出新的聚类中心点（平均值），如果计算得出的新中心点与原中心点一样则停止聚类，否则重新进行第三步过程，直到聚类中心不在变化或者达到最大迭代次数。

四、聚类评估方法

1.SSE“肘”方法

计算簇内误差的平方和，SSE越小，聚类效果越好

$SSE=\sum_{i=1}^{k}\sum_{p\epsilon C_{i}}^{}\left | p-m_{i} \right |^{2}$

其中：K 表示聚类中心的个数、Ci 表示簇、p 表示样本、mi 表示簇的质心

每次聚类完成要计算SSE，SSE会逐渐变小，变化过程中会出现一个拐点（即下降率突然变缓）认为是最佳n_clusters值。

在决定什么时候停止训练时，肘形判据同样有效，数据通常有更多的噪音，在增加分类无法带来更多回报时，我们停止增加类别。

2.SC轮廓系数

综合考虑簇内的内聚程度与簇间的分离程度，SC越大，聚类效果越好

$S=\frac{\left ( b-a \right )}{max\left ( a,b \right )}$

其中：a是样本i到同一簇内其他不相似程度的平均值（a越小越好）；b是样本i到其他簇的平均不相似程度的最小值（b越大越好）

3.CH轮廓系数

综合考虑簇内的内聚程度、簇间的分离程度、质心的个数，CH越大，聚类效果越好

SSW：

Cpi 表示质心、xi 表示某个样本、SSW 值是计算每个样本点到质心的距离，并累加起来、SSW 表示表示簇内的内聚程度，越小越好、m 表示样本数量、k 表示质心个数

SSB：

Cj 表示质心，X 表示质心与质心之间的中心点，nj 表示样本的个数、SSB 表示簇与簇之间的分离度，SSB 越大越好

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/pingmian/83567.shtml
繁体地址，请注明出处：http://hk.pswp.cn/pingmian/83567.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Python训练第四十四天

Python训练第四十四天

DAY 44 预训练模型知识点回顾： 预训练的概念常见的分类预训练模型图像预训练模型的发展史预训练的策略预训练代码实战：resnet18 作业： 尝试在cifar10对比如下其他的预训练模型，观察差异，尽可能和他人选择的不同尝试通…

阅读更多...

Spring Boot中保存前端上传的图片

Spring Boot中保存前端上传的图片

在Spring Boot中保存前端上传的图片可以通过以下步骤实现： 1. 添加依赖确保在pom.xml中已包含Spring Web依赖： <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifact…

阅读更多...

应用层协议：HTTP

应用层协议：HTTP

目录 HTTP：超文本传输协议 1.1 HTTP报文 1.1.1 请求报文 1.1.2 响应报文 1.2 HTTP请求过程和原理 1.2.1 请求过程 1、域名（DNS）解析 2、建立TCP连接（三次握手） 3、发送HTTP请求 4、服务器处理请求 5、返回H…

阅读更多...

商务合同范本智能审核系统 AI 大模型处理方案

商务合同范本智能审核系统 AI 大模型处理方案

1. 项目概述与目标目标：构建一个基于AI大模型的智能合同审核系统，能够自动解析商务合同范本，识别其中的法律风险点（如权责不对等、违约金比例异常、条款模糊、缺失必要条款等），并结合企业内部合规数据库进行实时比对，提供专业的修改建议，大幅提升合同审查的效率和合…

阅读更多...

Kafka 消息队列

Kafka 消息队列

一、消息队列 1. 什么是消息队列消息(Message)是指在应用间传送的数据。消息可以非常简单，比如只包含文本字符串，也可以更复杂，可能包含嵌入对象。消息队列(Message Queue)是一种应用间的通信方式，消息发送后可以立即返回&…

阅读更多...

NodeJS全栈WEB3面试题——P3Web3.js / Ethers.js 使用

NodeJS全栈WEB3面试题——P3Web3.js / Ethers.js 使用

3.1 Ethers.js 和 Web3.js 的主要区别是什么？ 比较点Ethers.jsWeb3.js体积更轻量，适合前端较大，加载慢，适合 Node文档文档简洁、现代化，支持 TypeScript文档丰富，但不够现代化模块化设计高度模块化&#x…

阅读更多...

Ubuntu 桌面版忘记账户密码的重置方法

Ubuntu 桌面版忘记账户密码的重置方法

如果你忘记了 Ubuntu 桌面版的用户密码，可以通过进入恢复模式（Recovery Mode）来重置密码。以下是详细步骤： 一、进入 GRUB 引导菜单重启计算机：点击关机按钮，选择重启。在启动时按住 Shift 键&#xff1…

阅读更多...

全志A40i android7.1 调试信息打印串口由uart0改为uart3

全志A40i android7.1 调试信息打印串口由uart0改为uart3

一，概述 1. 目的将调试信息打印串口由uart0改为uart3。 2. 版本信息 Uboot版本：2014.07； Kernel版本：Linux-3.10； 二，Uboot 1. sys_config.fex改动使能uart3(TX:PH00 RX:PH01)，并让boo…

阅读更多...

【五子棋在线对战】二.项目结构设计实用工具类模板的实现

【五子棋在线对战】二.项目结构设计实用工具类模板的实现

项目结构设计 1.项目模块划分2.业务处理模块子模块的划分3.实用工具类模板的实现3.1 日志宏的实现3.2 mysql工具3.3 JsonCpp工具3.4 string-Split工具 && file_util工具 1.项目模块划分 ● 数据管理模块：依托 MySQL 数据库，负责用户数据的存储与…

阅读更多...

53 python akshare（获取金融数据）

53 python akshare（获取金融数据）

在金融数据获取与分析领域，AkShare是一个强大且灵活的开源库，它提供了丰富的金融数据接口，覆盖股票、期货、期权、基金、债券、外汇等多个金融市场。AkShare更专注于中国金融市场数据，并且支持从多个数据源获取数据，具有更高的稳定性和更全面的数据覆盖。一、安装akshar…

阅读更多...

蓝桥杯17114 残缺的数字

蓝桥杯17114 残缺的数字

问题描述七段码显示器是一种常见的显示数字的电子元件，它由七个发光管组成: 图依次展示了数字 0∼9 用七段码来显示的状态，其中灯管为黄色表示点亮，灰色表示熄灭。根据灯管的亮暗状态，我们可以用一个状态码(状态码是一个 7 位的…

阅读更多...

Java观察者模式深度解析：构建松耦合事件驱动系统的艺术

Java观察者模式深度解析：构建松耦合事件驱动系统的艺术

目录观察者模式基础解析核心结构与实现原理Java内置观察者实现Spring框架中的高级应用典型应用场景与实战案例观察者模式变体与优化常见问题与最佳实践总结与未来展望1. 观察者模式基础解析 1.1 模式定义与核心思想观察者模式（Observer Pattern）是一种行为型设计模式，它…

阅读更多...

NocoBase v1.7.0 正式版发布

NocoBase v1.7.0 正式版发布

原文链接：https://www.nocobase.com/cn/blog/nocobase-1-7-0。新特性用户角色并集角色并集是一种权限管理模式，根据系统设置，系统开发者可以选择使用独立角色、允许角色并集，或者仅使用角色并集，以满足不同的权限…

阅读更多...

破解通信难题，modbus转profibus网关在高炉水冲渣系统中稳定好用

破解通信难题，modbus转profibus网关在高炉水冲渣系统中稳定好用

基于在高炉水冲渣传动监控系统的工艺背景下,稳联技术Profibus-Modbus网关在控制系统中使支持Profibus协议的设备与支持Modbus RTU协议的设备之间进行通讯协议转换的作用,使得支持不同通讯协议的设备之间能够进行数据传递,并且给出了设计方法.应用Profibus-Modbus总线桥WL-ABD30…

阅读更多...

开源是什么？我们为什么要开源？

开源是什么？我们为什么要开源？

本片为故事类文章推荐听音频哦软件自由运动的背景梦开始的地方 20世纪70年代，软件行业处于早期发展阶段，软件通常与硬件捆绑销售，用户对软件的使用、修改和分发权利非常有限。随着计算机技术的发展和互联网的普及，越来越多的开…

阅读更多...

Educational Codeforces Round 179 (Rated for Div. 2)(A-E)

Educational Codeforces Round 179 (Rated for Div. 2)(A-E)

题目链接：Dashboard - Educational Codeforces Round 179 (Rated for Div. 2) - Codeforces A. Energy Crystals 思路贪心地模拟一下过程很容易就看出来了，每次变成尽可能大的数 1 1 0 -> 1 1 3 -> 3 3 5 -> 5 5 11....我们只需要关注最大…

阅读更多...

React Native开发鸿蒙运动健康类应用的项目实践记录

React Native开发鸿蒙运动健康类应用的项目实践记录

项目名称：HarmonyFitness - 基于React Native的鸿蒙运动健康应用技术栈：React Native 0.72.5 TypeScript HarmonyOS API ArkTS原生模块一、环境搭建与项目初始化双环境配置 React Native环境： npx re…

阅读更多...

Linux --UDP套接字实现简单的网络聊天室

Linux --UDP套接字实现简单的网络聊天室

一、Server端的实现 1.1、服务端的初始化 ①、创建套接字： 创建套接字接口： #include <sys/types.h> /* See NOTES */ #include <sys/socket.h> int socket(int domain, int type, int protocol); //1. 这是一个创建套接字的接…

阅读更多...

Eureka 高可用集群搭建实战：服务注册与发现的底层原理与避坑指南

Eureka 高可用集群搭建实战：服务注册与发现的底层原理与避坑指南

引言：为什么 Eureka 依然是存量系统的核心？ 尽管 Nacos 等新注册中心崛起，但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制，是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…

阅读更多...

Spring Boot应用开发实战

Spring Boot应用开发实战

Spring Boot应用开发实战：从零到生产级项目的深度指南在当今Java生态中，Spring Boot已占据绝对主导地位——据统计，超过75%的新Java项目选择Spring Boot作为开发框架。本文将带您从零开始，深入探索Spring Boot的核心精髓&#xf…

阅读更多...

最新文章