Bagging 与随机森林 (Random Forest)
Bagging (Bootstrap Aggregating)
核心思想
Bagging 通过自举采样 (Bootstrap) 构建多个独立的基学习器,再通过投票(分类)或平均(回归)进行集成,以降低方差。
Bootstrap 采样
从大小为
约 36.8% 的样本未被选中(称为 OOB, Out-Of-Bag 样本),可用于评估。
方差缩减
假设
- 第一项
不可消除(受相关性限制) - 第二项随
增大而趋近于零
随机森林 (Random Forest)
改进:特征随机化
在 Bagging 的基础上,随机森林在每次节点分裂时,只从随机抽取的
推荐值:
| 任务 | |
|---|---|
| 分类 | |
| 回归 |
特征重要性
基于不纯度(MDI):特征
代码对应
bash
python -m pipelines.classification.random_forest
python -m pipelines.ensemble.bagging