KMeans 算法深度解析：从原理到实战

一、算法概述：无监督学习的聚类利器

在机器学习的无监督学习领域，聚类算法是探索数据内在结构的重要工具。KMeans 算法作为划分式聚类的代表，因其简单高效的特性，成为数据科学家工具箱中的必备技能。该算法通过将 n 个数据点划分为 k 个簇，使得每个数据点属于离其最近的均值（簇中心）所在的簇，最终实现 "物以类聚" 的效果。

核心目标函数

KMeans 的核心是最小化簇内平方和（Within-Cluster Sum of Squares, WCSS），数学表达式为：

J(c,μ)=i=1∑kx∈Ci∑∥x−μi∥2

其中：

k是预设的簇数量

Ci是第 i 个簇的样本集合

μi是第 i 个簇的质心（均值向量）

c(x)表示样本 x 所属的簇索引

这个目标函数本质上是寻找 k 个质心，使得所有样本到其所属质心的欧氏距离平方和最小。

二、算法原理：三步迭代优化过程

1. 初始化聚类中心（关键第一步）

传统随机初始化

最直接的方法是从数据集中随机选取 k 个样本作为初始质心。但这种方法存在明显缺陷：

可能陷入局部最优（如图 1 所示，不同初始化导致不同聚类结果）

极端情况下可能产生空簇（当 k > 样本量时）

KMeans++ 优化初始化（工业级方案）

步骤如下：

随机选择第一个质心μ1对于每个样本 x，计算其到最近已选质心的距离D(x)2以D(x)2作为权重，随机选择下一个质心，重复直到选满 k 个

优点：保证初始质心尽可能分散，提升算法收敛质量，减少局部最优影响。

2. 分配样本到最近质心（硬聚类过程）

对于每个样本点xj，计算其与所有质心μi的欧氏距离：

cj=argi=1..kmin∥xj−μi∥2

将样本分配到距离最小的簇，形成当前划分{C1,C2,...,Ck}。

3. 重新计算簇质心（更新迭代中心）

对每个簇Ci，计算所有样本的均值作为新质心：

μi(t+1)=∣Ci∣1x∈Ci∑x

重复步骤 2-3，直到质心不再变化或达到最大迭代次数。

收敛条件算法终止的两种情况：

质心位置稳定：μi(t+1)=μi(t)对所有 i 成立
目标函数收敛：∣J(t+1)−J(t)∣<ϵ（预设极小值）

三、算法特性：优势与局限性分析

显著优势

计算效率高：时间复杂度为
O(nkt)，适用于中等规模数据集（n≤10^5）

实现简单：核心步骤仅包含距离计算和均值求解，易于工程实现

几何意义明确：基于欧氏距离的划分方式符合直观几何理解

主要局限性

K 值需预先指定：实际应用中缺乏客观的 K 值确定方法（需结合业务经验或肘部法则）

对初始质心敏感：不同初始化可能导致差异较大的聚类结果（需 KMeans++ 等技术优化）

对非凸数据不友好：适用于球形簇，对环形、月牙形等非凸分布效果不佳（如图 2 所示）

对噪声敏感：离群点会显著影响簇质心计算（可结合离群点检测预处理）

四、工程实现：从手动编码到 Scikit-learn 实战

手动实现简化版（Python）

TypeScript

取消自动换行复制

import numpy as np

class SimpleKMeans:

def __init__(self, n_clusters=2, max_iter=100, random_state=42):

self.k = n_clusters

self.max_iter = max_iter

self.centers = None

def fit(self, X):

# 初始化质心（随机选择k个样本）

np.random.seed(self.random_state)

idx = np.random.choice(len(X), self.k, replace=False)

self.centers = X[idx]

for _ in range(self.max_iter):

# 分配样本

distances = np.linalg.norm(X[:, None] - self.centers, axis=2)

labels = np.argmin(distances, axis=1)

# 更新质心

new_centers = np.array([X[labels==i].mean(axis=0) for i in range(self.k)])

# 检查收敛

if np.allclose(self.centers, new_centers):

break

self.centers = new_centers

return self

def predict(self, X):

distances = np.linalg.norm(X[:, None] - self.centers, axis=2)

return np.argmin(distances, axis=1)

Scikit-learn 专业实现

TypeScript

取消自动换行复制

from sklearn.datasets import make_blobs

from sklearn.cluster import KMeans

import matplotlib.pyplot as plt

# 生成模拟数据

X, y_true = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# 模型训练

kmeans = KMeans(n_clusters=4, init='k-means++', n_init=10, max_iter=300, random_state=0)

y_pred = kmeans.fit_predict(X)

# 结果可视化

plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap='viridis', edgecolors='k')

plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=300, c='red', marker='x', label='Centers')

plt.legend()

plt.title("KMeans Clustering Result")

plt.show()

关键参数解析

参数名	含义	推荐值
init	初始化方法	'k-means++'（默认）
n_init	重复初始化次数	10（默认，自动选择最优结果）
max_iter	单次运行最大迭代数	300（默认）
tol	收敛阈值	1e-4（默认）
n_clusters	簇数量	需业务 / 技术手段确定