Layers — 网络层 API

BaseLayer

src/nn/layers/baseLayer.py

所有网络层的抽象基类，定义了统一的接口契约。

python

class BaseLayer(ABC):
    isTraining: bool
    inputCache: np.ndarray | None
    outputCache: np.ndarray | None

    @abstractmethod
    def forward(self, inputData: np.ndarray) -> np.ndarray
    @abstractmethod
    def backward(self, outputGradient: np.ndarray) -> np.ndarray
    def getParameters(self) -> list[np.ndarray]
    def getGradients(self) -> list[np.ndarray]
    def zeroGrad(self) -> None
    def train(self) -> None
    def eval(self) -> None
    def hasParameters(self) -> bool

方法说明

方法	返回	说明
`forward(inputData)`	`np.ndarray`	抽象方法。前向传播，必须缓存 `inputCache` 和 `outputCache`
`backward(outputGradient)`	`np.ndarray`	抽象方法。反向传播，参数层须写入梯度数组
`getParameters()`	`list[np.ndarray]`	返回层的可训练参数列表（基类返回 `[]`）
`getGradients()`	`list[np.ndarray]`	返回层的梯度列表，顺序须与 `getParameters()` 一致
`zeroGrad()`	`None`	将所有梯度数组就地清零 (`fill(0.0)`)
`train()`	`None`	设置 `isTraining = True`
`eval()`	`None`	设置 `isTraining = False`
`hasParameters()`	`bool`	是否有可训练参数

LinearLayer

src/nn/layers/linearLayer.py

全连接线性层，实现 $Y = X W + b$ 。

构造函数

python

LinearLayer(
    inputDim: int,            # 输入维度（必须 > 0）
    outputDim: int,           # 输出维度（必须 > 0）
    useBias: bool = True,     # 是否使用偏置
    randomSeed: int | None = None  # 随机种子
)

初始化行为：

权重使用 Xavier 均匀初始化： $W \sim U [- \sqrt{\frac{6}{n_{i n} + n_{o u t}}}, \sqrt{\frac{6}{n_{i n} + n_{o u t}}}]$
偏置初始化为 $0$ （形状 $(1, outputDim)$ ）
梯度数组初始化为同形状零矩阵

forward()

python

def forward(self, inputData: np.ndarray) -> np.ndarray

参数	类型	形状	说明
`inputData`	`np.ndarray`	$(N, d_{i n})$	批量输入
返回	`np.ndarray`	$(N, d_{o u t})$	$X W + b$

异常：

ValueError — inputData 不是二维数组
ValueError — inputData.shape[1] != inputDim

backward()

python

def backward(self, outputGradient: np.ndarray) -> np.ndarray

参数	类型	形状	说明
`outputGradient`	`np.ndarray`	$(N, d_{o u t})$	$\frac{\partial L}{\partial Y}$
返回	`np.ndarray`	$(N, d_{i n})$	$\frac{\partial L}{\partial X}$

副作用：

self.gradWeights[...] = inputCache.T @ outputGradient（形状 $(d_{i n}, d_{o u t})$ ）
self.gradBias[...] = np.sum(outputGradient, axis=0, keepdims=True)（形状 $(1, d_{o u t})$ ）

数学公式：

\frac{\partial L}{\partial X} = \frac{\partial L}{\partial Y} W^{T}

\frac{\partial L}{\partial W} = X^{T} \frac{\partial L}{\partial Y}

\frac{\partial L}{\partial b} = \sum_{n} {(\frac{\partial L}{\partial Y})}_{n, :}

ReLULayer

src/nn/layers/activationLayer.py

ReLU 激活层，无参数。

forward()

ReLU (x) = max (0, x)

python

def forward(self, inputData: np.ndarray) -> np.ndarray

参数	类型	形状	说明
`inputData`	`np.ndarray`	任意	输入张量
返回	`np.ndarray`	同输入	$max (0, x)$

backward()

\frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} ⊙ 1 {x > 0}

python

def backward(self, outputGradient: np.ndarray) -> np.ndarray

异常：

ValueError — 未先调用 forward()

SigmoidLayer

src/nn/layers/activationLayer.py

Sigmoid 激活层，无参数。输出范围 $(0, 1)$ 。

forward()

σ (x) = \frac{1}{1 + e^{- x}}

backward()

\frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} ⊙ y ⊙ (1 - y)

TanhLayer

src/nn/layers/activationLayer.py

Tanh 激活层，无参数。输出范围 $(- 1, 1)$ 。

forward()

\tanh (x) = \frac{e^{x} - e^{- x}}{e^{x} + e^{- x}}

backward()

\frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} ⊙ (1 - y^{2})

激活层共同特性

三类激活层均无参数和梯度：getParameters() → []，getGradients() → []
zeroGrad() 为空操作
hasParameters() 返回 False
输入/输出形状不变

Layers — 网络层 API ​

BaseLayer ​

方法说明 ​

LinearLayer ​

构造函数 ​

forward() ​

backward() ​

ReLULayer ​

forward() ​

backward() ​

SigmoidLayer ​

forward() ​

backward() ​

TanhLayer ​

forward() ​

backward() ​

激活层共同特性 ​

Layers — 网络层 API

BaseLayer

方法说明

LinearLayer

构造函数

forward()

backward()

ReLULayer

forward()

backward()

SigmoidLayer

forward()

backward()

TanhLayer

forward()

backward()

激活层共同特性