决策树回归 (Decision Tree Regression)

核心思想

决策树回归通过递归地将特征空间划分为若干矩形区域，每个区域内以常数（均值）作为预测值。分割准则为最小化平方误差。

详细的树构建原理、信息度量、剪枝策略请参阅决策树分类页面。本页聚焦回归特有的数学细节。

对于特征 $j$ 和分割点 $s$ ，定义左右子区域：

R_{1} (j, s) = {x ∣ x_{j} \leq s}, R_{2} (j, s) = {x ∣ x_{j} > s}

选择最优 $(j, s)$ 使得总平方误差最小：

min_{j, s} [\sum_{x_{i} \in R_{1}} (y_{i} - {\hat{c}}_{1})^{2} + \sum_{x_{i} \in R_{2}} (y_{i} - {\hat{c}}_{2})^{2}]

其中 ${\hat{c}}_{m} = mean (y_{i} : x_{i} \in R_{m})$ 。

对每个特征 $j$ ，将其取值排序后遍历所有可能的分割点，总复杂度为 $O (d \cdot N \log N)$ 。

C_{α} (T) = \sum_{m = 1}^{| T |} N_{m} \cdot {MSE}_{m} + α | T |

bash

python -m pipelines.regression.decision_tree