朴素贝叶斯 (Naive Bayes)

核心思想

朴素贝叶斯基于贝叶斯定理与特征条件独立假设，是一种高效的生成式分类器。虽然"朴素"假设在实践中几乎不成立，但朴素贝叶斯在文本分类等场景通常表现优异。

P (Y = c_{k} ∣ x) = \frac{P (x ∣ Y = c_{k}) P (Y = c_{k})}{P (x)}

假设给定类别 $c_{k}$ 后，所有特征相互独立：

P (x ∣ Y = c_{k}) = P (x_{1}, x_{2}, \dots, x_{d} ∣ Y = c_{k}) = \prod_{j = 1}^{d} P (x_{j} ∣ Y = c_{k})

这极大地降低了需要估计的参数数量：从 $O (K \cdot | X |^{d})$ 降为 $O (K \cdot d)$ 。

\hat{y} = \arg max_{c_{k}} P (Y = c_{k}) \prod_{j = 1}^{d} P (x_{j} ∣ Y = c_{k})

取对数避免下溢：

\hat{y} = \arg max_{c_{k}} [\ln P (Y = c_{k}) + \sum_{j = 1}^{d} \ln P (x_{j} ∣ Y = c_{k})]

假设每个特征服从正态分布：

P (x_{j} ∣ Y = c_{k}) = \frac{1}{\sqrt{2 π σ_{k j}^{2}}} \exp (- \frac{(x_{j} - μ_{k j})^{2}}{2 σ_{k j}^{2}})

参数估计：

μ_{k j} = \frac{1}{| D_{k} |} \sum_{i : y_{i} = c_{k}} x_{i j}, σ_{k j}^{2} = \frac{1}{| D_{k} |} \sum_{i : y_{i} = c_{k}} (x_{i j} - μ_{k j})^{2}

适用于离散计数特征（如词频）：

P (x_{j} ∣ Y = c_{k}) = \frac{N_{k j} + α}{N_{k} + α \cdot d}

其中 $N_{k j}$ 为类别 $c_{k}$ 中特征 $j$ 出现的总次数， $α$ 为平滑参数。

适用于二值特征（出现/不出现）：

P (x_{j} ∣ Y = c_{k}) = p_{k j}^{x_{j}} (1 - p_{k j})^{1 - x_{j}}

当某个特征值在某类别中从未出现时， $P (x_{j} ∣ Y = c_{k}) = 0$ ，导致整个后验概率为零。

拉普拉斯平滑为每个计数加 $α$ （通常 $α = 1$ ）：

\hat{P} (x_{j} = a_{j l} ∣ Y = c_{k}) = \frac{\sum_{i : y_{i} = c_{k}} 1 (x_{i j} = a_{j l}) + α}{| D_{k} | + α \cdot S_{j}}

其中 $S_{j}$ 是特征 $j$ 的可能取值数。

bash

python -m pipelines.classification.naive_bayes