EM 算法与高斯混合模型 (GMM)

核心思想

EM (Expectation-Maximization) 是一种用于含隐变量的概率模型的参数估计迭代算法。GMM 是 EM 最经典的应用：用多个高斯分布的加权和来建模数据分布。

高斯混合模型

模型定义

p (x) = \sum_{k = 1}^{K} π_{k} N (x ∣ μ_{k}, Σ_{k})

$π_{k}$ ：第 $k$ 个高斯的混合系数， $\sum_{k} π_{k} = 1$ ， $π_{k} \geq 0$
$N (x ∣ μ_{k}, Σ_{k})$ ：多元高斯密度

N (x ∣ μ, Σ) = \frac{1}{(2 π)^{d / 2} | Σ |^{1 / 2}} \exp (- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ))

隐变量

引入隐变量 $z_{i} \in {1, \dots, K}$ 表示样本 $x_{i}$ 来自哪个分量。

为什么不能直接 MLE？

对数似然：

\ln L = \sum_{i = 1}^{N} \ln [\sum_{k = 1}^{K} π_{k} N (x_{i} ∣ μ_{k}, Σ_{k})]

对数内有求和，无法分解，直接求导没有闭式解。

EM 算法的理论基础

Jensen 不等式

对于凹函数 $\ln$ ：

\ln (\sum_{k} q_{k} \frac{p_{k}}{q_{k}}) \geq \sum_{k} q_{k} \ln \frac{p_{k}}{q_{k}}

构造对数似然的下界 (ELBO)，EM 通过交替最大化下界来逼近似然极大值。

ELBO (Evidence Lower Bound)

\ln L \geq \sum_{i = 1}^{N} \sum_{k = 1}^{K} γ_{i k} \ln \frac{π_{k} N (x_{i} ∣ μ_{k}, Σ_{k})}{γ_{i k}} = ELBO

当 $γ_{i k} = P (z_{i} = k ∣ x_{i})$ （后验概率）时，下界取等号。

E 步 (Expectation)

计算隐变量的后验概率（责任度）：

γ_{i k} = \frac{π_{k} N (x_{i} ∣ μ_{k}, Σ_{k})}{\sum_{j = 1}^{K} π_{j} N (x_{i} ∣ μ_{j}, Σ_{j})}

M 步 (Maximization)

利用 $γ_{i k}$ 更新参数：

N_{k} = \sum_{i = 1}^{N} γ_{i k}

μ_{k}^{new} = \frac{1}{N_{k}} \sum_{i = 1}^{N} γ_{i k} x_{i}

Σ_{k}^{new} = \frac{1}{N_{k}} \sum_{i = 1}^{N} γ_{i k} (x_{i} - μ_{k}^{new}) (x_{i} - μ_{k}^{new})^{T}

π_{k}^{new} = \frac{N_{k}}{N}

收敛性

每次迭代 $\ln L$ 单调不减。EM 算法收敛到局部极大值（不保证全局最优）。

代码对应

bash

python -m pipelines.probabilistic.em

EM 算法与高斯混合模型 (GMM) ​

核心思想 ​

高斯混合模型 ​

模型定义 ​

隐变量 ​

为什么不能直接 MLE？ ​

EM 算法的理论基础 ​

Jensen 不等式 ​

ELBO (Evidence Lower Bound) ​

E 步 (Expectation) ​

M 步 (Maximization) ​

收敛性 ​

代码对应 ​