感知机与线性变换

从生物神经元到数学模型

神经网络的最基本计算单元是人工神经元，其灵感来源于生物神经元。一个神经元接收多个输入信号，对这些信号加权求和后加上偏置，产生输出。

单个神经元的数学定义

设输入为 $n$ 维向量 $x = [x_{1}, x_{2}, \dots, x_{n}]^{T}$ ，每个输入有一个对应的权重 $w_{i}$ ，外加一个偏置项 $b$ 。神经元的输出 $z$ 为：

z = \sum_{i = 1}^{n} w_{i} x_{i} + b

向量化表示

将所有权重写为行向量 $w = [w_{1}, w_{2}, \dots, w_{n}]$ ，则上式可简洁表示为内积形式：

z = w \cdot x + b = w^{T} x + b

多个神经元并行：矩阵形式

在实际网络中，一层通常包含多个神经元。设输入维度为 $d_{i n}$ ，输出维度为 $d_{o u t}$ （即该层有 $d_{o u t}$ 个神经元），则权重组织为矩阵 $W \in R^{d_{i n} \times d_{o u t}}$ ，偏置为行向量 $b \in R^{1 \times d_{o u t}}$ 。

对于单个样本 $x \in R^{1 \times d_{i n}}$ ：

z = x W + b

其中 $z \in R^{1 \times d_{o u t}}$ 是该层所有神经元的输出。

批量处理

对于 $N$ 个样本组成的批量 $X \in R^{N \times d_{i n}}$ ：

Z = X W + b

形状分析:

\underset{N \times d_{i n}}{\underset{⏟}{X}} \cdot \underset{d_{i n} \times d_{o u t}}{\underset{⏟}{W}} = \underset{N \times d_{o u t}}{\underset{⏟}{XW}}

偏置 $b$ 的形状为 $(1, d_{o u t})$ ，通过 NumPy 的广播机制自动扩展到 $(N, d_{o u t})$ 再与 $XW$ 相加。

代码实现：LinearLayer.forward()

以上数学公式在 src/nn/layers/linearLayer.py 中的直接对应：

python

def forward(self, inputData: np.ndarray) -> np.ndarray:
    # inputData: (batchSize, inputDim)

    self.inputCache = inputData

    # Y = X @ W  矩阵乘法，形状: (batchSize, outputDim)
    outputData = inputData @ self.weights

    # Y = X @ W + b  加上偏置（广播）
    if self.useBias and self.bias is not None:
        outputData = outputData + self.bias

    self.outputCache = outputData
    return outputData

关键点：

@ 是 NumPy 的矩阵乘法运算符，对应公式中的矩阵乘积
+ self.bias 利用了 NumPy 广播——self.bias 形状 $(1, d_{o u t})$ 自动复制到每一行
self.inputCache 保存输入，供反向传播计算权重梯度使用

权重初始化：Xavier (Glorot) 均匀分布

权重初始值对训练至关重要。本项目使用 Xavier 均匀初始化：

W_{i j} \sim U [- \sqrt{\frac{6}{n_{i n} + n_{o u t}}}, \sqrt{\frac{6}{n_{i n} + n_{o u t}}}]

其中 $n_{i n} = d_{i n}$ 为输入维度， $n_{o u t} = d_{o u t}$ 为输出维度。 $U [a, b]$ 表示区间 $[a, b]$ 上的均匀分布。

python

rng = np.random.default_rng(randomSeed)
limit = np.sqrt(6.0 / (inputDim + outputDim))
self.weights = rng.uniform(
    low=-limit, high=limit, size=(inputDim, outputDim),
).astype(np.float64)

详细的 Xavier 初始化数学推导见 Xavier 初始化章节。

为什么线性变换不够

如果神经网络只由线性变换组成，无论堆叠多少层，最终效果等价于单个线性变换：

Y = X W_{1} W_{2} = X (W_{1} W_{2}) = X W^{'}

这意味着没有隐藏层的表达能力提升。因此需要在每个线性层之后引入非线性激活函数，见下一章激活函数。

感知机与线性变换 ​

从生物神经元到数学模型 ​

单个神经元的数学定义 ​

向量化表示 ​

多个神经元并行：矩阵形式 ​

批量处理 ​

代码实现：LinearLayer.forward() ​

权重初始化：Xavier (Glorot) 均匀分布 ​

为什么线性变换不够 ​