PCA 主成分分析 (Principal Component Analysis)
核心思想
PCA 是一种线性降维方法。它寻找数据方差最大的方向(主成分),将高维数据投影到低维子空间中,在最大化保留信息的前提下压缩维度。
最大投影方差推导
中心化
设
投影到单位向量
将数据投影到方向
其中
约束优化
最大化投影方差:
使用拉格朗日乘子法:
这正是特征值问题!
最大方差 = 最大特征值对应的特征向量方向。
多个主成分
第
SVD 与 PCA 的关系
对中心化数据
代码对应
bash
python -m pipelines.dimensionality.pca