线性回归 (Linear Regression)

核心思想

线性回归假设目标变量 $y$ 与特征 $x$ 之间存在线性关系，通过最小化预测误差的平方和来拟合参数。

\hat{y} = w^{T} x + b = w_{1} x_{1} + w_{2} x_{2} + \dots + w_{d} x_{d} + b

引入扩展向量 $\tilde{x} = (1, x_{1}, \dots, x_{d})^{T}$ ， $\tilde{w} = (b, w_{1}, \dots, w_{d})^{T}$ ：

\hat{y} = {\tilde{w}}^{T} \tilde{x}

对 $N$ 个样本，残差平方和 (RSS) 为：

L (w) = \sum_{i = 1}^{N} (y_{i} - w^{T} x_{i})^{2} = (y - X w)^{T} (y - X w)

其中 $X \in R^{N \times (d + 1)}$ 是设计矩阵， $y \in R^{N}$ 是目标向量。

展开损失函数：

L = y^{T} y - 2 w^{T} X^{T} y + w^{T} X^{T} X w

对 $w$ 求导（利用矩阵微分恒等式 $\frac{\partial a^{T} w}{\partial w} = a$ ， $\frac{\partial w^{T} A w}{\partial w} = 2 A w$ ）：

\frac{\partial L}{\partial w} = - 2 X^{T} y + 2 X^{T} X w

令其为零，得到正规方程 (Normal Equation)：

X^{T} X w^{*} = X^{T} y

w^{*} = (X^{T} X)^{- 1} X^{T} y

$X^{T} X$ 必须可逆。当特征间存在多重共线性（ $X^{T} X$ 近似奇异）时，正规方程数值不稳定 — 这正是正则化的动机。

假设 $y_{i} = w^{T} x_{i} + ϵ_{i}$ ， $ϵ_{i} \sim N (0, σ^{2})$ ，则：

P (y_{i} ∣ x_{i}, w) = \frac{1}{\sqrt{2 π} σ} \exp (- \frac{(y_{i} - w^{T} x_{i})^{2}}{2 σ^{2}})

对数似然：

\ln L = - \frac{N}{2} \ln (2 π σ^{2}) - \frac{1}{2 σ^{2}} \sum_{i = 1}^{N} (y_{i} - w^{T} x_{i})^{2}

最大化对数似然等价于最小化 RSS，因此 OLS 等价于高斯噪声下的 MLE。

bash

python -m pipelines.regression.linear_regression