HMM 隐马尔可夫模型 (Hidden Markov Model)

核心思想

HMM 是一种描述由隐状态序列生成观测序列的概率图模型。隐状态之间通过马尔可夫链连接，观测值由当前隐状态生成。

模型定义

HMM 由五元组 $λ = (S, O, A, B, π)$ 定义：

符号	含义
$S = {s_{1}, \dots, s_{N}}$	$N$ 个隐状态集合
$O = {o_{1}, \dots, o_{M}}$	$M$ 个观测符号集合
$A = [a_{i j}]_{N \times N}$	状态转移概率矩阵
$B = [b_{j} (k)]_{N \times M}$	发射概率矩阵
$π = [π_{i}]_{N}$	初始状态概率

两个基本假设

一阶马尔可夫假设： $P (q_{t} ∣ q_{t - 1}, q_{t - 2}, \dots) = P (q_{t} ∣ q_{t - 1})$
观测独立假设： $P (o_{t} ∣ q_{1}, \dots, q_{T}, o_{1}, \dots, o_{T}) = P (o_{t} ∣ q_{t})$

三大基本问题

问题一：评估 (Evaluation)

给定模型 $λ$ 和观测序列 $O = (o_{1}, \dots, o_{T})$ ，计算 $P (O ∣ λ)$ 。

前向算法

定义前向变量：

α_{t} (i) = P (o_{1}, o_{2}, \dots, o_{t}, q_{t} = s_{i} ∣ λ)

初始化：

α_{1} (i) = π_{i} \cdot b_{i} (o_{1}), i = 1, \dots, N

递推：

α_{t + 1} (j) = [\sum_{i = 1}^{N} α_{t} (i) \cdot a_{i j}] \cdot b_{j} (o_{t + 1})

终止：

P (O ∣ λ) = \sum_{i = 1}^{N} α_{T} (i)

时间复杂度从暴力的 $O (N^{T})$ 降至 $O (N^{2} T)$ 。

问题二：解码 (Decoding)

给定模型和观测，找最可能的隐状态序列 $Q^{*} = \arg max_{Q} P (Q ∣ O, λ)$ 。

Viterbi 算法

定义：

δ_{t} (i) = max_{q_{1}, \dots, q_{t - 1}} P (q_{1}, \dots, q_{t} = s_{i}, o_{1}, \dots, o_{t} ∣ λ)

初始化：

δ_{1} (i) = π_{i} \cdot b_{i} (o_{1}), ψ_{1} (i) = 0

递推：

δ_{t} (j) = max_{1 \leq i \leq N} [δ_{t - 1} (i) \cdot a_{i j}] \cdot b_{j} (o_{t})

ψ_{t} (j) = \arg max_{1 \leq i \leq N} [δ_{t - 1} (i) \cdot a_{i j}]

终止：

P^{*} = max_{1 \leq i \leq N} δ_{T} (i), q_{T}^{*} = \arg max_{i} δ_{T} (i)

回溯：

q_{t}^{*} = ψ_{t + 1} (q_{t + 1}^{*}), t = T - 1, \dots, 1

问题三：学习 (Learning)

给定观测序列，估计模型参数 $λ$ 。使用 Baum-Welch 算法（EM 算法的特殊形式）。

后向变量

β_{t} (i) = P (o_{t + 1}, \dots, o_{T} ∣ q_{t} = s_{i}, λ)

E 步

ξ_{t} (i, j) = \frac{α_{t} (i) \cdot a_{i j} \cdot b_{j} (o_{t + 1}) \cdot β_{t + 1} (j)}{P (O ∣ λ)}

γ_{t} (i) = \sum_{j = 1}^{N} ξ_{t} (i, j)

M 步

{\hat{π}}_{i} = γ_{1} (i)

{\hat{a}}_{i j} = \frac{\sum_{t = 1}^{T - 1} ξ_{t} (i, j)}{\sum_{t = 1}^{T - 1} γ_{t} (i)}

{\hat{b}}_{j} (k) = \frac{\sum_{t = 1}^{T} γ_{t} (j) \cdot 1 (o_{t} = k)}{\sum_{t = 1}^{T} γ_{t} (j)}

代码对应

bash

python -m pipelines.probabilistic.hmm

HMM 隐马尔可夫模型 (Hidden Markov Model) ​

核心思想 ​

模型定义 ​

两个基本假设 ​

三大基本问题 ​

问题一：评估 (Evaluation) ​

前向算法 ​

问题二：解码 (Decoding) ​

Viterbi 算法 ​

问题三：学习 (Learning) ​

后向变量 ​

E 步 ​

M 步 ​

代码对应 ​