【机器学习基础】机器学习入门核心算法:层次聚类算法(AGNES算法和 DIANA算法)

在这里插入图片描述

机器学习入门核心算法:层次聚类算法(AGNES算法和 DIANA算法)

        • 一、算法逻辑
        • 二、算法原理与数学推导
          • 1. 距离度量
          • 2. 簇间距离计算(连接标准)
          • 3. 算法伪代码(凝聚式)
        • 三、模型评估
          • 1. 内部评估指标
          • 2. 外部评估指标(已知真实标签)
          • 3. 超参数选择
        • 四、应用案例
          • 1. 生物信息学
          • 2. 文档主题分层
          • 3. 图像分割
          • 4. 社交网络分析
        • 五、面试题及答案
          • 常见问题
        • 六、相关论文
        • 七、优缺点对比
      • 总结

一、算法逻辑

层次聚类(Hierarchical Clustering)通过构建树状结构(树状图/Dendrogram)揭示数据内在的层次关系,分为两类:

  1. 凝聚式(Agglomerative)
    • 自底向上:每个样本初始为一个簇 → 迭代合并最近簇 → 最终形成单一簇
    • 流程
      计算距离矩阵 → 合并最近簇 → 更新距离矩阵 → 重复至终止
      
  2. 分裂式(Divisive)
    • 自顶向下:所有样本初始为一个簇 → 迭代分裂最异质簇 → 直至每个样本一簇
    • 计算复杂度高,较少使用

核心特点

  • 无需预设聚类数
  • 树状图可视化层次关系
  • 合并/分裂过程不可逆

在这里插入图片描述

二、算法原理与数学推导
1. 距离度量

设样本 X = { x 1 , x 2 , . . . , x n } X = \{x_1, x_2, ..., x_n\} X={x1,x2,...,xn}, x i ∈ R d x_i \in \mathbb{R}^d xiRd
常用距离:

  • 欧氏距离: d ( x i , x j ) = ∑ k = 1 d ( x i k − x j k ) 2 d(x_i, x_j) = \sqrt{\sum_{k=1}^d (x_{ik} - x_{jk})^2} d(xi,xj)=k=1d(xikxjk)2
  • 曼哈顿距离: d ( x i , x j ) = ∑ k = 1 d ∣ x i k − x j k ∣ d(x_i, x_j) = \sum_{k=1}^d |x_{ik} - x_{jk}| d(xi,xj)=k=1dxikxjk
2. 簇间距离计算(连接标准)
类型公式特点
单连接 d min ( C i , C j ) = min ⁡ a ∈ C i , b ∈ C j d ( a , b ) d_{\text{min}}(C_i, C_j) = \min_{a \in C_i, b \in C_j} d(a,b) dmin(Ci,Cj)=aCi,bCjmind(a,b)易形成链式结构
全连接 d max ( C i , C j ) = max ⁡ a ∈ C i , b ∈ C j d ( a , b ) d_{\text{max}}(C_i, C_j) = \max_{a \in C_i, b \in C_j} d(a,b) dmax(Ci,Cj)=aCi,bCjmaxd(a,b)对噪声敏感
质心法 d cent ( C i , C j ) = d ( μ i , μ j ) d_{\text{cent}}(C_i, C_j) = d(\mu_i, \mu_j) dcent(Ci,Cj)=d(μi,μj)可能导致逆反(Inversion)

其中 μ i = 1 ∣ C i ∣ ∑ x ∈ C i x \mu_i = \frac{1}{|C_i|}\sum_{x \in C_i} x μi=Ci1xCix 为簇质心, Δ SSE \Delta \text{SSE} ΔSSE 为合并后的簇内平方和增量。

3. 算法伪代码(凝聚式)
输入: 数据集 X, 连接标准  
输出: 树状图  
1. 初始化 n 个簇,每个簇包含一个样本  
2. 计算所有簇对的距离矩阵 D  
3. for k = n to 1:  
4.   找到 D 中最小距离的簇对 (C_i, C_j)  
5.   合并 C_i 和 C_j 为新簇 C_{new}  
6.   更新距离矩阵 D(移除 C_i, C_j,添加 C_{new}7.   记录合并高度(距离)  
8. 生成树状图  
三、模型评估
1. 内部评估指标
  • 轮廓系数(Silhouette Coefficient)
    s ( i ) = b ( i ) − a ( i ) max ⁡ { a ( i ) , b ( i ) } s(i) = \frac{b(i) - a(i)}{\max\{a(i), b(i)\}} s(i)=max{a(i),b(i)}b(i)a(i)
    a ( i ) a(i) a(i):样本 i i i 到同簇其他点的平均距离, b ( i ) b(i) b(i):到最近其他簇的平均距离。 s ( i ) ∈ [ − 1 , 1 ] s(i) \in [-1,1] s(i)[1,1],越大越好。
  • 共表型相关(Cophenetic Correlation)
    衡量树状图距离与原始距离的一致性(值接近1表示层次结构保留良好)
2. 外部评估指标(已知真实标签)
  • 调整兰德指数(Adjusted Rand Index, ARI)
  • Fowlkes-Mallows Index(FMI)
3. 超参数选择
  • 切割高度选择:通过树状图的"最长无交叉垂直边"确定聚类数
  • 连接标准选择
    • 单连接:适合非凸形状
    • Ward法:适合凸簇且噪声少
四、应用案例
1. 生物信息学
  • 基因表达聚类:对RNA-seq数据聚类,识别功能相似的基因模块
  • 工具:GenePattern、Cluster 3.0
2. 文档主题分层
  • 步骤
    1. 文档→TF-IDF向量
    2. 余弦距离 + 平均连接
    3. 切割树状图得到主题层级(如:科技→AI→CV/NLP)
3. 图像分割
  • 流程
    像素→颜色+坐标特征 → Ward法聚类 → 合并相似区域
  • 优势:保留空间连续性
4. 社交网络分析
  • 用户行为数据聚类 → 发现社区层级结构(如:核心用户群→子兴趣组)
五、面试题及答案
常见问题
  1. Q: 层次聚类与K-means的本质区别?
    A:

    • 层次聚类生成树状结构,K-means生成平面划分
    • 层次聚类无需预设K,K-means需指定聚类数
    • 层次聚类复杂度 O ( n 3 ) O(n^3) O(n3),K-means为 O ( n k ) O(nk) O(nk)
  2. Q: Ward法的目标函数是什么?
    A: 最小化合并后的簇内平方和增量:
    Δ SSE = ∣ C i ∣ ∣ C j ∣ ∣ C i ∣ + ∣ C j ∣ ∥ μ i − μ j ∥ 2 \Delta \text{SSE} = \frac{|C_i||C_j|}{|C_i|+|C_j|} \|\mu_i - \mu_j\|^2 ΔSSE=Ci+CjCi∣∣Cjμiμj2

  3. Q: 何时选择全连接而非单连接?
    A: 当需要紧凑球形簇且数据噪声较少时;单连接易受噪声影响形成链式结构。

  4. Q: 如何处理大规模数据?
    A:

    • 使用优先队列优化到 O ( n 2 log ⁡ n ) O(n^2 \log n) O(n2logn)
    • 采样或Mini-Batch
    • 切换为BIRCH(平衡迭代规约聚类)算法
六、相关论文
  1. 奠基性论文

    • Ward, J. H. (1963). Hierarchical Grouping to Optimize an Objective Function
      贡献:提出Ward最小方差法
    • Johnson, S. C. (1967). Hierarchical Clustering Schemes
      贡献:系统化连接标准
  2. 高效优化

    • Murtagh, F. (1983). A Survey of Recent Advances in Hierarchical Clustering Algorithms
      贡献:提出 O ( n 2 ) O(n^2) O(n2) 单连接算法
  3. 生物学应用

    • Eisen, M. B., et al. (1998). Cluster Analysis of Gene Expression Data
      工具:开发TreeView软件
七、优缺点对比
优点缺点
1. 可视化强(树状图展示层次)1. 计算复杂度高(凝聚式 O ( n 3 ) O(n^3) O(n3)
2. 无需预设聚类数2. 合并/分裂后不可逆
3. 灵活选择距离/连接标准3. 对噪声和离群点敏感(尤其全连接)
4. 适合层次结构数据(如生物分类学)4. 大样本内存消耗大

总结

  • 核心价值:揭示数据内在层次关系(如生物进化树、文档主题树)
  • 工业选择:中小规模数据用层次聚类(<10k样本),大规模用BIRCH或HDBSCAN
  • 关键决策:距离度量 + 连接标准(Ward法最常用)
  • 趋势:与深度学习结合(如深度层次聚类)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/bicheng/83390.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

已有的前端项目打包到tauri运行(windows)

1.打包前端项目产生静态html、css、js 我们接下来用vue3 vite编写一个番茄钟案例来演示。 我们执行npm run build 命令产生的dist目录下的静态文件。 2.创建tarui项目 npm create tauri-applatest一路回车&#xff0c;直到出现。 3.启动运行 我们将打包产生的dist目录下的…

Unity3D仿星露谷物语开发55之保存地面属性到文件

1、目标 将游戏保存到文件&#xff0c;并从文件中加载游戏。 Player在游戏中种植的Crop&#xff0c;我们希望保存到文件中&#xff0c;当游戏重新加载时Crop的GridProperty数据仍然存在。这次主要实现保存地面属性&#xff08;GridProperties&#xff09;信息。 我们要做的是…

Java面试:企业协同SaaS中的技术挑战与解决方案

Java面试&#xff1a;企业协同SaaS中的技术挑战与解决方案 面试场景 在一家知名互联网大厂&#xff0c;面试官老王正在对一位应聘企业协同SaaS开发职位的程序员谢飞机进行技术面试。 第一轮提问&#xff1a;基础技术 老王&#xff1a;谢飞机&#xff0c;你好。首先&#xf…

SQL注入速查表(含不同数据库攻击方式与差异对比)

1. 字符串连接 字符串连接是SQL注入中常用的操作&#xff0c;用于将多个字符串拼接为一个&#xff0c;以构造复杂的注入语句。不同数据库的字符串连接语法存在显著差异&#xff0c;了解这些差异有助于精准构造payload。 Oracle&#xff1a;使用||操作符进行字符串连接&#xf…

uni-data-picker级联选择器、fastadmin后端api

记录一个部门及部门人员选择的功能&#xff0c;效果如下&#xff1a; 组件用到了uni-ui的级联选择uni-data-picker 开发文档&#xff1a;uni-app官网 组件要求的数据格式如下&#xff1a; 后端使用的是fastadmin&#xff0c;需要用到fastadmin自带的tree类生成部门树 &#x…

Mac电脑上本地安装 redis并配置开启自启完整流程

文章目录 一、安装 Redis方法 1&#xff1a;通过源码编译安装&#xff08;推荐&#xff09;方法 2&#xff1a;通过 Homebrew 安装&#xff08;可选&#xff09; 二、配置 Redis1. 创建配置文件和数据目录2. 修改配置文件 三、配置开机自启1、通过 launchd 系统服务&#xff08…

wsl安装linux

安装wsl 启用适用于 Linux 的 Windows 子系统 以管理员身份打开 PowerShell &#xff08;> PowerShell > 右键单击 > 以管理员身份运行&#xff09; 并输入以下命令&#xff0c;然后重启 dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsyste…

OpenGL 3D 编程

OpenGL 是一个强大的跨平台图形 API,用于渲染 2D 和 3D 图形。以下是 OpenGL 3D 编程的入门基础。 一. 环境设置 安装必要的库 GLFW: 用于创建窗口和处理输入 GLEW 或 GLAD: 用于加载 OpenGL 函数 GLM: 数学库,用于 3D 变换 // 基本 OpenGL 程序结构示例 #include <GL/g…

Android基于LiquidFun引擎实现软体碰撞效果

一、实现效果 Android使用LiquidFun物理引擎实现果冻碰撞效果 二、Android代码 // 加载liquidfun动态库static {System.loadLibrary("liquidfun");System.loadLibrary("liquidfun_jni");}class ParticleData {long id;ParticleSystem particleSystem;float…

Redis持久化机制详解:RDB与AOF的深度剖析

一、为什么需要持久化&#xff1f; Redis作为内存数据库&#xff0c;数据存储在易失性内存中。持久化机制解决两大核心问题&#xff1a; 数据安全&#xff1a;防止服务器宕机导致数据丢失灾难恢复&#xff1a;支持数据备份与快速重建 二、RDB&#xff1a;内存快照持久化 ▶ …

Netty学习example示例

文章目录 simpleServer端NettyServerNettyServerHandler Client端NettyClientNettyClientHandler tcp&#xff08;粘包和拆包&#xff09;Server端NettyTcpServerNettyTcpServerHandler Client端NettyTcpClientNettyTcpClientHandler protocolcodecCustomMessageDecoderCustomM…

ThreadLocal ,底层原理,强引用,弱引用,内存泄漏

目录 ThreadLocal的基本概念 底层实现原理 强引用与弱引用 内存泄漏问题 内存泄漏的解决方案 示例代码 ThreadLocal的基本概念 ThreadLocal是Java中的一个类&#xff0c;位于java.lang包下&#xff0c;它提供了线程局部变量的功能。每个使用该变量的线程都有自己独立的初…

TomSolver 库 | config详解及其测试

一、C 关键特性解析 1. enum class 强类型枚举 enum class LogLevel { OFF, FATAL, ERROR, WARN, INFO, DEBUG, TRACE, ALL }; enum class NonlinearMethod { NEWTON_RAPHSON, LM };核心特性&#xff1a; 类型安全&#xff1a;禁止隐式转换为整数作用域限定&#xff1a;必须…

【DB2】ERRORCODE=-4499, SQLSTATE=08001

客户在连接DB2压测时报错ERRORCODE-4499, SQLSTATE08001&#xff0c;连接失败&#xff0c;主要是因为通信失败 在本地进行复现&#xff0c;用DBeaver代替java程序&#xff0c;将DB2COMM从TCPIP置为空&#xff0c;重启后重新连接&#xff0c;报一样的错误 而将防火墙开启&…

MicroPython+L298N+ESP32控制电机转速

要使用MicroPython控制L298N电机驱动板来控制电机的转速&#xff0c;你可以通过PWM&#xff08;脉冲宽度调制&#xff09;信号来调节电机速度。L298N是一个双H桥驱动器&#xff0c;可以同时控制两个电机的正反转和速度。 硬件准备&#xff1a; 1. L298N 电机控制板 2. ESP32…

WPF 全局加载界面、多界面实现渐变过渡效果

WPF 全局加载界面与渐变过渡效果 完整实现方案 MainWindow.xaml <Window x:Class"LoadingScreenDemo.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winfx/2006/xaml&quo…

RabbitMQ深度解析:从基础实践到高阶架构设计

引言​​ 在分布式系统与微服务架构主导的现代软件开发中&#xff0c;服务间通信的可靠性、异步处理能力及流量管控成为核心挑战。​​RabbitMQ​​作为基于AMQP协议的企业级消息中间件&#xff0c;凭借其灵活的路由机制、高可用架构与丰富的扩展能力&#xff0c;成为异步通信…

华为OD机试真题——矩形相交的面积(2025A卷:100分)Java/python/JavaScript/C/C++/GO最佳实现

2025 A卷 100分 题型 本专栏内全部题目均提供Java、python、JavaScript、C、C++、GO六种语言的最佳实现方式; 并且每种语言均涵盖详细的问题分析、解题思路、代码实现、代码详解、3个测试用例以及综合分析; 本文收录于专栏:《2025华为OD真题目录+全流程解析+备考攻略+经验分…

基于随机函数链接神经网络(RVFL)的锂电池健康状态(SOH)预测

基于随机函数链接神经网络(RVFL)的锂电池健康状态(SOH)预测 一、RVFL网络的基本原理与结构 随机向量功能链接(Random Vector Functional Link, RVFL)网络是一种单隐藏层前馈神经网络的随机化版本,其核心特征在于输入层到隐藏层的权重随机生成且固定,输出层权重通过最…

阿里云国际站,如何通过代理商邀请的链接注册账号

阿里云国际站&#xff1a;如何通过代理商邀请链接注册&#xff0c;解锁“云端超能力”与专属福利&#xff1f; 渴望在全球化浪潮中抢占先机&#xff1f;想获得阿里云国际站的海量云资源、遍布全球的加速节点与前沿AI服务&#xff0c;同时又能享受专属折扣、VIP级增值服务支持或…