正则化回归 (Regularization)

核心思想

当特征之间存在多重共线性或特征数量接近/超过样本数时，最小二乘解不稳定且易过拟合。正则化通过在损失函数中添加惩罚项来约束参数大小，从而提高模型的泛化能力。

Ridge 回归 (L2 正则化)

目标函数

L_{Ridge} = \sum_{i = 1}^{N} (y_{i} - w^{T} x_{i})^{2} + λ ∥ w ∥_{2}^{2} = (y - X w)^{T} (y - X w) + λ w^{T} w

闭式解推导

\frac{\partial L_{Ridge}}{\partial w} = - 2 X^{T} y + 2 X^{T} X w + 2 λ w = 0

w_{Ridge}^{*} = (X^{T} X + λ I)^{- 1} X^{T} y

$λ I$ 使得矩阵永远可逆，解决了共线性问题。

贝叶斯解释

Ridge 等价于对 $w$ 施加高斯先验 $w \sim N (0, \frac{σ^{2}}{λ} I)$ 后的 MAP 估计。

Lasso 回归 (L1 正则化)

目标函数

L_{Lasso} = \sum_{i = 1}^{N} (y_{i} - w^{T} x_{i})^{2} + λ ∥ w ∥_{1} = (y - X w)^{T} (y - X w) + λ \sum_{j = 1}^{d} | w_{j} |

稀疏性

L1 罚项在原点不可微，产生的约束区域为"菱形"。当等高线（椭圆）与菱形的顶点相切时，部分 $w_{j}$ 恰好为零 — 自动实现特征选择。

次梯度

L1 正则项的次梯度为：

\partial | w_{j} | = {\begin{cases} {- 1} & w_{j} < 0 \\ [- 1, 1] & w_{j} = 0 \\ {+ 1} & w_{j} > 0 \end{cases}

Lasso 没有闭式解，通常使用坐标下降法求解。

贝叶斯解释

Lasso 等价于对 $w$ 施加拉普拉斯先验 $P (w_{j}) = \frac{λ}{2 σ^{2}} \exp (- \frac{λ}{σ^{2}} | w_{j} |)$ 后的 MAP 估计。

ElasticNet (弹性网)

组合 L1 和 L2 罚项：

L_{EN} = ∥ y - X w ∥_{2}^{2} + λ_{1} ∥ w ∥_{1} + λ_{2} ∥ w ∥_{2}^{2}

等价形式（使用混合比 $ρ \in [0, 1]$ ）：

L_{EN} = ∥ y - X w ∥_{2}^{2} + λ [ρ ∥ w ∥_{1} + (1 - ρ) ∥ w ∥_{2}^{2}]

$ρ = 1$ ：退化为 Lasso
$ρ = 0$ ：退化为 Ridge

ElasticNet 在相关特征分组时优于 Lasso（Lasso 只倾向于选出同组中的一个）。

L1 vs L2 对比

特性	Ridge (L2)	Lasso (L1)
惩罚项	$\sum w_{j}^{2}$	$\sum \| w_{j} \|$
参数趋势	收缩但不为零	可精确为零
特征选择	❌ 不具备	✅ 自动选择
闭式解	✅ 有	❌ 无
贝叶斯先验	高斯分布	拉普拉斯分布
多重共线性	效果好	不稳定

代码对应

bash

python -m pipelines.regression.regularization

正则化回归 (Regularization) ​

核心思想 ​

Ridge 回归 (L2 正则化) ​

目标函数 ​

闭式解推导 ​

贝叶斯解释 ​

Lasso 回归 (L1 正则化) ​

目标函数 ​

稀疏性 ​

次梯度 ​

贝叶斯解释 ​

ElasticNet (弹性网) ​

L1 vs L2 对比 ​

代码对应 ​

正则化回归 (Regularization)

核心思想

Ridge 回归 (L2 正则化)

目标函数

闭式解推导

贝叶斯解释

Lasso 回归 (L1 正则化)

目标函数

稀疏性

次梯度

贝叶斯解释

ElasticNet (弹性网)

L1 vs L2 对比

代码对应