K-Means 聚类

核心思想

K-Means 将 $N$ 个样本划分为 $K$ 个簇，使得每个样本属于最近的簇中心，目标是最小化簇内平方和 (Within-Cluster Sum of Squares, WCSS)。

J = \sum_{k = 1}^{K} \sum_{x_{i} \in C_{k}} ∥ x_{i} - μ_{k} ∥^{2}

其中 $C_{k}$ 为第 $k$ 个簇， $μ_{k}$ 为第 $k$ 个簇中心：

μ_{k} = \frac{1}{| C_{k} |} \sum_{x_{i} \in C_{k}} x_{i}

精确最小化 $J$ 是 NP-Hard 的。K-Means 使用交替优化（类似 EM 算法的思想）来逼近局部最优。

每次迭代 $J$ 单调不增（E 步不增、M 步不增），且 $J$ 有下界 0，因此算法必然收敛。但只保证局部最优。

为避免差的初始化，K-Means++ 按概率选择初始中心：

K-Means++ 保证期望的初始目标值为 $O (\log K)$ 倍最优值。

绘制 $K$ vs $J (K)$ 曲线，选择"拐点"（肘部）作为最佳 $K$ 。

s (i) = \frac{b (i) - a (i)}{max (a (i), b (i))}

bash

python -m pipelines.clustering.kmeans