逻辑回归 (Logistic Regression)

核心思想

逻辑回归是一种广义线性模型，通过 Sigmoid 函数将线性组合映射到概率空间 $(0, 1)$ ，用于二分类或多分类任务。虽名为"回归"，实则是一个分类器。

模型定义

线性部分

给定输入 $x \in R^{d}$ ，线性得分为：

z = w^{T} x + b = \sum_{j = 1}^{d} w_{j} x_{j} + b

Sigmoid 函数

Sigmoid（逻辑函数）将任意实数映射到 $(0, 1)$ ：

σ (z) = \frac{1}{1 + e^{- z}}

其导数具有优雅的自引用形式：

σ^{'} (z) = σ (z) \cdot (1 - σ (z))

概率输出

正类后验概率：

P (y = 1 ∣ x) = σ (w^{T} x + b)

负类后验概率：

P (y = 0 ∣ x) = 1 - σ (w^{T} x + b)

对数几率 (Log-Odds)

逻辑回归对对数几率（logit）建模为线性函数：

\ln \frac{P (y = 1 ∣ x)}{P (y = 0 ∣ x)} = w^{T} x + b

这意味着决策边界 $w^{T} x + b = 0$ 是一个超平面。

极大似然估计 (MLE)

似然函数

对于训练集 ${(x_{i}, y_{i})}_{i = 1}^{N}$ ，假设样本独立同分布，似然函数为：

L (w, b) = \prod_{i = 1}^{N} P (y_{i} ∣ x_{i}) = \prod_{i = 1}^{N} {\hat{p}}_{i}^{y_{i}} (1 - {\hat{p}}_{i})^{1 - y_{i}}

其中 ${\hat{p}}_{i} = σ (w^{T} x_{i} + b)$ 。

对数似然 → 交叉熵损失

取对数并加负号，得到要最小化的交叉熵损失：

L (w, b) = - \frac{1}{N} \sum_{i = 1}^{N} [y_{i} \ln {\hat{p}}_{i} + (1 - y_{i}) \ln (1 - {\hat{p}}_{i})]

梯度推导

交叉熵对参数 $w_{j}$ 的偏导数：

\frac{\partial L}{\partial w_{j}} = \frac{1}{N} \sum_{i = 1}^{N} ({\hat{p}}_{i} - y_{i}) x_{i j}

向量形式：

\nabla_{w} L = \frac{1}{N} X^{T} (\hat{p} - y)

推导过程：

\frac{\partial L}{\partial w_{j}} = - \frac{1}{N} \sum_{i = 1}^{N} [y_{i} \frac{σ^{'} (z_{i})}{σ (z_{i})} x_{i j} + (1 - y_{i}) \frac{- σ^{'} (z_{i})}{1 - σ (z_{i})} x_{i j}]

利用 $σ^{'} (z) = σ (z) (1 - σ (z))$ ：

= - \frac{1}{N} \sum_{i = 1}^{N} [y_{i} (1 - {\hat{p}}_{i}) - (1 - y_{i}) {\hat{p}}_{i}] x_{i j} = \frac{1}{N} \sum_{i = 1}^{N} ({\hat{p}}_{i} - y_{i}) x_{i j}

梯度下降更新

w \leftarrow w - η \cdot \nabla_{w} L

其中 $η$ 为学习率。

多分类扩展：Softmax 回归

对于 $K$ 个类别，使用 Softmax 函数：

P (y = k ∣ x) = \frac{e^{w_{k}^{T} x + b_{k}}}{\sum_{j = 1}^{K} e^{w_{j}^{T} x + b_{j}}}

损失函数变为多类交叉熵：

L = - \frac{1}{N} \sum_{i = 1}^{N} \sum_{k = 1}^{K} 1 (y_{i} = k) \ln P (y_{i} = k ∣ x_{i})

代码对应

bash

python -m pipelines.classification.logistic_regression

逻辑回归 (Logistic Regression) ​

核心思想 ​

模型定义 ​

线性部分 ​

Sigmoid 函数 ​

概率输出 ​

对数几率 (Log-Odds) ​

极大似然估计 (MLE) ​

似然函数 ​

对数似然 → 交叉熵损失 ​

梯度推导 ​

梯度下降更新 ​

多分类扩展：Softmax 回归 ​

代码对应 ​