Bagging 与随机森林 (Random Forest)

Bagging (Bootstrap Aggregating)

Bagging 通过自举采样 (Bootstrap) 构建多个独立的基学习器，再通过投票（分类）或平均（回归）进行集成，以降低方差。

从大小为 $N$ 的训练集中有放回地抽取 $N$ 个样本，形成一个 Bootstrap 样本集。每个样本被抽中的概率为：

P (被选中) = 1 - {(1 - \frac{1}{N})}^{N} \overset{N \to \infty}{\to} 1 - \frac{1}{e} \approx 0.632

约 36.8% 的样本未被选中（称为 OOB, Out-Of-Bag 样本），可用于评估。

假设 $T$ 个基学习器 $h_{1}, \dots, h_{T}$ 的预测方差均为 $σ^{2}$ ，两两相关系数为 $ρ$ ，集成后方差：

Var [\frac{1}{T} \sum_{t = 1}^{T} h_{t}] = ρ σ^{2} + \frac{1 - ρ}{T} σ^{2}

在 Bagging 的基础上，随机森林在每次节点分裂时，只从随机抽取的 $m$ 个特征中选择最优分裂特征，进一步降低基学习器的相关性 $ρ$ 。

推荐值：

任务	$m$ 的推荐值
分类	$m = ⌊ \sqrt{d} ⌋$
回归	$m = ⌊ d / 3 ⌋$

基于不纯度（MDI）：特征 $j$ 在所有树中被用于分裂时带来的不纯度减少之和。

Imp (j) = \sum_{t = 1}^{T} \sum_{node v splits on j} Δ Gini (v)

bash

python -m pipelines.classification.random_forest
python -m pipelines.ensemble.bagging