SVM 支持向量机 (Support Vector Machine)

核心思想

SVM 寻找一个最大间隔超平面将不同类别的数据分开。核心直觉是：在所有能正确分类训练数据的超平面中，间隔最大的那个泛化能力最强。

硬间隔线性 SVM

超平面与函数间隔

超平面定义为：

w^{T} x + b = 0

样本 $(x_{i}, y_{i})$ 到超平面的几何间隔：

γ_{i} = y_{i} \cdot \frac{w^{T} x_{i} + b}{∥ w ∥}

最大间隔优化问题

令所有样本的最小几何间隔为 $γ = min_{i} γ_{i}$ ，最大化 $γ$ ：

max_{w, b} \frac{2}{∥ w ∥} s.t. y_{i} (w^{T} x_{i} + b) \geq 1, \forall i

等价于：

min_{w, b} \frac{1}{2} ∥ w ∥^{2} s.t. y_{i} (w^{T} x_{i} + b) \geq 1, \forall i

拉格朗日对偶

引入拉格朗日乘子 $α_{i} \geq 0$ ，构造拉格朗日函数：

L (w, b, α) = \frac{1}{2} ∥ w ∥^{2} - \sum_{i = 1}^{N} α_{i} [y_{i} (w^{T} x_{i} + b) - 1]

对 $w$ 和 $b$ 求偏导并令其为零：

\frac{\partial L}{\partial w} = 0 ⟹ w = \sum_{i = 1}^{N} α_{i} y_{i} x_{i}

\frac{\partial L}{\partial b} = 0 ⟹ \sum_{i = 1}^{N} α_{i} y_{i} = 0

代回得到对偶问题：

max_{α} \sum_{i = 1}^{N} α_{i} - \frac{1}{2} \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}

s.t. α_{i} \geq 0, \sum_{i = 1}^{N} α_{i} y_{i} = 0

KKT 条件

互补松弛条件：

α_{i} [y_{i} (w^{T} x_{i} + b) - 1] = 0, \forall i

这意味着只有支持向量（ $y_{i} (w^{T} x_{i} + b) = 1$ 的样本）对应的 $α_{i} > 0$ 。

软间隔 SVM

引入松弛变量 $ξ_{i} \geq 0$ 和惩罚参数 $C > 0$ ：

min_{w, b, ξ} \frac{1}{2} ∥ w ∥^{2} + C \sum_{i = 1}^{N} ξ_{i}

s.t. y_{i} (w^{T} x_{i} + b) \geq 1 - ξ_{i}, ξ_{i} \geq 0

对偶问题变为约束 $0 \leq α_{i} \leq C$ 。

核函数 (Kernel Trick)

对偶问题中的 $x_{i}^{T} x_{j}$ 可替换为核函数 $K (x_{i}, x_{j})$ ，实现隐式映射到高维空间而无需显式计算：

核函数	公式
线性核	$K (x, z) = x^{T} z$
多项式核	$K (x, z) = (γ x^{T} z + r)^{d}$
RBF (高斯核)	$K (x, z) = \exp (- γ \| x - z \|^{2})$
Sigmoid 核	$K (x, z) = \tanh (γ x^{T} z + r)$

Mercer 定理： $K$ 必须是正半定的，即对任意样本集，核矩阵 $K_{i j} = K (x_{i}, x_{j})$ 满足 $K ⪰ 0$ 。

RBF 核的直觉

RBF 核相当于将样本映射到无穷维空间。参数 $γ$ 越大，决策边界越"弯曲"、越灵活（更容易过拟合）。

SMO 算法简述

序列最小优化（Sequential Minimal Optimization）每次选取两个 $α_{i}, α_{j}$ 进行解析更新，利用约束 $α_{i} y_{i} + α_{j} y_{j} = const$ 将二变量问题化为一元问题，得到闭式解。

代码对应

bash

python -m pipelines.classification.svc

SVM 支持向量机 (Support Vector Machine) ​

核心思想 ​

硬间隔线性 SVM ​

超平面与函数间隔 ​

最大间隔优化问题 ​

拉格朗日对偶 ​

KKT 条件 ​

软间隔 SVM ​

核函数 (Kernel Trick) ​

RBF 核的直觉 ​

SMO 算法简述 ​

代码对应 ​