Xavier 初始化

为什么初始化重要

权重的初始值直接影响梯度的流动。两种经典问题：

梯度消失：权重初始化太小 → 激活值逐层缩小 → 梯度趋近于 0 → 无法学习
梯度爆炸：权重初始化太大 → 激活值逐层放大 → 梯度趋近于无穷 → 参数溢出

理想的初始化应当保持各层激活值和梯度的方差稳定。

Xavier (Glorot) 初始化的动机

2010 年，Glorot 和 Bengio 提出：对于使用对称激活函数（如 Tanh, Sigmoid）的网络，应在初始化时保持：

Var (a^{(l)}) \approx Var (a^{(l - 1)})

即相邻层的输出方差相等。

方差推导

假设条件

权重 $W_{i j}$ 独立同分布，均值为 0，方差为 $σ_{w}^{2}$
输入 $x_{i}$ 独立同分布，均值为 0，方差为 $σ_{x}^{2}$
激活函数在原点附近近似线性（如 Tanh 在 $x \approx 0$ 时）

前向传播方差

对线性层的第 $j$ 个输出神经元：

y_{j} = \sum_{i = 1}^{n_{i n}} W_{i j} x_{i} + b_{j}

忽略偏置（通常初始化为 0），计算方差：

\begin{aligned} Var (y_{j}) & = Var (\sum_{i = 1}^{n_{i n}} W_{i j} x_{i}) \\ = \sum_{i = 1}^{n_{i n}} Var (W_{i j} x_{i}) （独立性） \\ = \sum_{i = 1}^{n_{i n}} Var (W_{i j}) \cdot Var (x_{i}) （零均值） \\ = n_{i n} \cdot σ_{w}^{2} \cdot σ_{x}^{2} \end{aligned}

要维持方差稳定（ $Var (y) = Var (x)$ ），需要：

n_{i n} \cdot σ_{w}^{2} = 1 \Rightarrow σ_{w}^{2} = \frac{1}{n_{i n}}

反向传播梯度方差

反向传播时对输入梯度进行类似分析，得到：

σ_{w}^{2} = \frac{1}{n_{o u t}}

Xavier 折中方案

取两者的调和平均：

σ_{w}^{2} = \frac{2}{n_{i n} + n_{o u t}}

均匀分布的边界

Xavier 使用该方差的均匀分布 $U [- a, a]$ 。均匀分布的方差为：

Var [U (- a, a)] = \frac{(a - (- a))^{2}}{12} = \frac{a^{2}}{3}

令方差等于 $\frac{2}{n_{i n} + n_{o u t}}$ ：

\frac{a^{2}}{3} = \frac{2}{n_{i n} + n_{o u t}}

a = \sqrt{\frac{6}{n_{i n} + n_{o u t}}}

最终公式

W_{i j} \sim U [- \sqrt{\frac{6}{n_{i n} + n_{o u t}}}, + \sqrt{\frac{6}{n_{i n} + n_{o u t}}}]

其中：

$n_{i n}$ ：输入神经元数（inputDim）
$n_{o u t}$ ：输出神经元数（outputDim）

代码实现

src/nn/layers/linearLayer.py:55-62:

python

rng = np.random.default_rng(randomSeed)

# limit = sqrt(6 / (n_in + n_out))
limit = np.sqrt(6.0 / (inputDim + outputDim))

# 从均匀分布采样
self.weights = rng.uniform(
    low=-limit,
    high=limit,
    size=(inputDim, outputDim),
).astype(np.float64)

每一步对应数学推导：

np.sqrt(6.0 / (inputDim + outputDim)) 计算 $a = \sqrt{6 / (n_{i n} + n_{o u t})}$
rng.uniform(low=-limit, high=limit, ...) 从 $U [- a, a]$ 采样
.astype(np.float64) 确保双精度浮点

偏置初始化

偏置统一初始化为零：

b = 0 (形状 1 \times d_{o u t})

python

self.bias = np.zeros(shape=(1, outputDim), dtype=np.float64)

偏置通常初始化为 0，因为：

零初始值不会破坏对称性（权重已随机）
偏置的梯度计算不依赖偏置本身，不会阻止学习

不同初始化方法对比

方法	方差	适用场景
Xavier 均匀	$σ^{2} = \frac{2}{n_{i n} + n_{o u t}}$	Tanh / Sigmoid 激活
He (Kaiming) 均匀	$σ^{2} = \frac{2}{n_{i n}}$	ReLU 激活
LeCun 均匀	$σ^{2} = \frac{1}{n_{i n}}$	线性 / SELU

本项目使用 Xavier，因为默认激活函数是 Tanh。若切换到 ReLU，可以考虑 He 初始化（只考虑 $n_{i n}$ ，因为 ReLU 将一半的神经元置零，方差减半）。

Xavier 初始化 ​

为什么初始化重要 ​

Xavier (Glorot) 初始化的动机 ​

方差推导 ​

假设条件 ​

前向传播方差 ​

反向传播梯度方差 ​

Xavier 折中方案 ​

均匀分布的边界 ​

最终公式 ​

代码实现 ​

偏置初始化 ​

不同初始化方法对比 ​