XGBoost

核心思想

XGBoost (eXtreme Gradient Boosting) 在 GBDT 基础上引入二阶泰勒展开来近似目标函数，并加入树结构的正则化项，使训练更快、更稳定。

Obj = \sum_{i = 1}^{N} L (y_{i}, {\hat{y}}_{i}) + \sum_{t = 1}^{T} Ω (h_{t})

其中树的正则项：

Ω (h) = γ \cdot | 叶子数 | + \frac{1}{2} λ \sum_{j = 1}^{J} w_{j}^{2}

$J$ 为叶节点数， $w_{j}$ 为叶节点权重。

在第 $t$ 轮，目标函数对第 $t$ 棵树 $h_{t}$ ：

{Obj}^{(t)} = \sum_{i = 1}^{N} L (y_{i}, {\hat{y}}_{i}^{(t - 1)} + h_{t} (x_{i})) + Ω (h_{t})

对 $L$ 在 ${\hat{y}}_{i}^{(t - 1)}$ 处做二阶泰勒展开：

L (y_{i}, {\hat{y}}_{i}^{(t - 1)} + h_{t}) \approx L (y_{i}, {\hat{y}}_{i}^{(t - 1)}) + g_{i} h_{t} (x_{i}) + \frac{1}{2} h_{i} h_{t}^{2} (x_{i})

其中：

g_{i} = \frac{\partial L (y_{i}, \hat{y})}{\partial \hat{y}} |_{\hat{y} = {\hat{y}}_{i}^{(t - 1)}}, h_{i} = \frac{\partial^{2} L (y_{i}, \hat{y})}{\partial {\hat{y}}^{2}} |_{\hat{y} = {\hat{y}}_{i}^{(t - 1)}}

去掉与 $h_{t}$ 无关的常数项，目标函数化为：

{\tilde{Obj}}^{(t)} = \sum_{i = 1}^{N} [g_{i} h_{t} (x_{i}) + \frac{1}{2} h_{i} h_{t}^{2} (x_{i})] + Ω (h_{t})

定义叶节点 $j$ 的样本集合 $I_{j} = {i : x_{i} \in {leaf}_{j}}$ ，则 $h_{t} (x_{i}) = w_{j}$ 。

代入目标函数：

{\tilde{Obj}}^{(t)} = \sum_{j = 1}^{J} [G_{j} w_{j} + \frac{1}{2} (H_{j} + λ) w_{j}^{2}] + γ J

其中 $G_{j} = \sum_{i \in I_{j}} g_{i}$ ， $H_{j} = \sum_{i \in I_{j}} h_{i}$ 。

对 $w_{j}$ 求导令其为零：

w_{j}^{*} = - \frac{G_{j}}{H_{j} + λ}

代回目标函数：

{\tilde{Obj}}^{*} = - \frac{1}{2} \sum_{j = 1}^{J} \frac{G_{j}^{2}}{H_{j} + λ} + γ J

对节点分裂的增益：

Gain = \frac{1}{2} [\frac{G_{L}^{2}}{H_{L} + λ} + \frac{G_{R}^{2}}{H_{R} + λ} - \frac{(G_{L} + G_{R})^{2}}{H_{L} + H_{R} + λ}] - γ

只有 $Gain > 0$ 时才分裂， $γ$ 起到预剪枝的作用。

bash

python -m pipelines.ensemble.xgboost