GBDT 梯度提升决策树 (Gradient Boosting Decision Tree)

核心思想

GBDT 是一种 Boosting 集成方法：通过逐步添加新的弱学习器来纠正前一轮残差。与 Bagging 的并行独立不同，GBDT 是串行依赖的，旨在降低偏差。

最终模型为 $T$ 棵树的叠加：

F_{T} (x) = \sum_{t = 1}^{T} η \cdot h_{t} (x)

其中 $η$ 为学习率（缩减系数）， $h_{t}$ 为第 $t$ 棵回归树。

每一步贪心地添加使损失最小的树：

h_{t} = \arg min_{h} \sum_{i = 1}^{N} L (y_{i}, F_{t - 1} (x_{i}) + h (x_{i}))

直接优化上式很困难。梯度提升的关键洞察：用损失函数对当前模型预测值的负梯度作为第 $t$ 棵树的拟合目标：

r_{t i} = - \frac{\partial L (y_{i}, F (x_{i}))}{\partial F (x_{i})} |_{F = F_{t - 1}}

可以看到，当使用平方损失时，负梯度恰好就是残差本身，这正是 GBDT 名称中"残差"的由来。

初始化 $F_{0} (x) = \arg min_{c} \sum_{i = 1}^{N} L (y_{i}, c)$
对 $t = 1, 2, \dots, T$ ：
1. 计算伪残差 $r_{t i}$
2. 用回归树拟合 ${(x_{i}, r_{t i})}$ ，得到 $h_{t}$
3. 对每个叶节点区域 $R_{t m}$ ，计算最优输出值： $γ_{t m} = \arg min_{γ} \sum_{x_{i} \in R_{t m}} L (y_{i}, F_{t - 1} (x_{i}) + γ)$
4. 更新 $F_{t} (x) = F_{t - 1} (x) + η \sum_{m} γ_{t m} 1 (x \in R_{t m})$

bash

python -m pipelines.ensemble.gbdt