KNN (K-Nearest Neighbors) K 近邻分类

核心思想

KNN 是一种基于实例的懒惰学习算法：它不构建显式模型，而是在预测时直接从训练集中找到与待分类样本"最近"的 $k$ 个邻居，以多数投票决定分类。

给定 $n$ 维空间中两点 $x = (x_{1}, x_{2}, \dots, x_{n})$ 与 $y = (y_{1}, y_{2}, \dots, y_{n})$ ，闵可夫斯基距离（Minkowski Distance）定义为：

d_{p} (x, y) = {(\sum_{i = 1}^{n} | x_{i} - y_{i} |^{p})}^{1 / p}, p \geq 1

特殊情况：

当不同特征的量纲差异悬殊时（例如"年收入"以万为单位、"年龄"以十为单位），大值特征将完全主导距离计算。因此必须对所有特征执行 Z-score 标准化：

x_{i}^{'} = \frac{x_{i} - μ_{i}}{σ_{i}}

使得每个特征均值为 0、标准差为 1，确保距离度量对所有特征公平。

对于待预测点 $x$ ，定义其 $k$ 近邻集合为 $N_{k} (x)$ ，则预测类别为：

\hat{y} = \arg max_{c \in C} \sum_{x_{i} \in N_{k} (x)} 1 (y_{i} = c)

其中 $1 (\cdot)$ 是指示函数， $C$ 为类别集合。

可以考虑距离越近权重越大的加权方案：

\hat{y} = \arg max_{c \in C} \sum_{x_{i} \in N_{k} (x)} \frac{1 (y_{i} = c)}{d (x, x_{i})^{2}}

$k$ 值	偏差	方差	表现
小 $k$	低偏差	高方差	对噪声敏感，容易过拟合
大 $k$	高偏差	低方差	决策边界过于平滑，欠拟合

最佳 $k$ 值通常通过交叉验证确定。

暴力搜索的时间复杂度为 $O (n \cdot d)$ （ $n$ 为样本数， $d$ 为维度）。KD-Tree 是一种二叉空间划分树：

查询时复杂度平均为 $O (\log n)$ ，但维度 $d$ 较高时退化为接近线性。

bash

python -m pipelines.classification.knn