朴素贝叶斯 (Naive Bayes)
核心思想
朴素贝叶斯基于贝叶斯定理与特征条件独立假设,是一种高效的生成式分类器。虽然"朴素"假设在实践中几乎不成立,但朴素贝叶斯在文本分类等场景通常表现优异。
贝叶斯定理
- 先验概率:
- 似然:
- 后验概率:
- 证据:
(对所有类别相同,可忽略)
条件独立假设
假设给定类别
这极大地降低了需要估计的参数数量:从
分类决策
取对数避免下溢:
不同分布假设下的似然模型
高斯朴素贝叶斯
假设每个特征服从正态分布:
参数估计:
多项式朴素贝叶斯
适用于离散计数特征(如词频):
其中
伯努利朴素贝叶斯
适用于二值特征(出现/不出现):
拉普拉斯平滑
当某个特征值在某类别中从未出现时,
拉普拉斯平滑为每个计数加
其中
代码对应
bash
python -m pipelines.classification.naive_bayes