DNN - 反向传播 - 《人工智能》

链式法则
反向传播
Source

当我们使用前馈神经网络接收输入反向传播 - 图1 并产生输出反向传播 - 图2 时，信息通过网络向前流动。输入反向传播 - 图3 提供初始信息，然后传播到每一层的隐藏单元，最终产生输出反向传播 - 图4 ，这称之为前向传播。在训练过程中，前向传播可以持续向前直到它产生一个标量代价函数反向传播 - 图5 。反向传播算法(Back Propagation)，允许来自代价函数的信息通过网络向后流动，以便计算梯度。建议边在http://playground.tensorflow.org/上操作，边看本文。

链式法则

微积分中的链式法则（为了不与概率中的链式法则相混淆）用于计算复合函数的导数。反向传播是一种计算链式法则的算法，使用高效的特定运算顺序。

设反向传播 - 图6 是实数，反向传播 - 图7 和反向传播 - 图8 是从实数映射到实数的函数。反向传播 - 图9 并且反向传播 - 图10 。那么链式法则是说：

反向传播 - 图11

我们可以将这种标量情况进行拓展。假设假设反向传播 - 图12 ，反向传播 - 图13 ，反向传播 - 图14 是从反向传播 - 图15 到反向传播 - 图16 的映射，反向传播 - 图17 是反向传播 - 图18 到反向传播 - 图19 的映射。如果反向传播 - 图20 并且反向传播 - 图21 ，那么

反向传播 - 图22

使用向量记法，可以等价地写成
反向传播 - 图23

这里反向传播 - 图24 是反向传播 - 图25 的反向传播 - 图26 的Jacobian矩阵。

通常我们将反向传播算法应用于任意维度的张量，而不仅仅用于向量。从概念上讲，这与使用向量的方向传播完全相同。唯一的区别是如何将数字排列称网格以形成张量。我们可以想象，在运行反向传播之前，将每个张量扁平为一个向量，计算一个向量值梯度，然后将该梯度重新构造成一个张量。从这种重新排列的观点上看，反向传播仍然只是将Jacobian乘以梯度。

反向传播

在进行DNN反向传播算法前，我们需要选择一个损失函数，来度量训练样本计算出的输出和真实的训练样本输出之间的损失。DNN可选择的损失函数有不少，为了专注算法，这里我们使用最常见的均方差来度量损失。当然，针对不同的任务，可以选择不同的损失函数。即对于每个样本，我们期望最小化下式：

反向传播 - 图27

其中，反向传播 - 图28 和反向传播 - 图29 为反向传播 - 图30 维度的向量，而 反向传播 - 图31 为反向传播 - 图32 的反向传播 - 图33 范数。损失函数有了，现在我们开始用梯度下降法迭代求解每一层的反向传播 - 图34 和反向传播 - 图35 。

第一步

首先是输出层（第反向传播 - 图36 层）。输出层的反向传播 - 图37 和反向传播 - 图38 满足下式：

反向传播 - 图39

这样对于输出层的参数，我们的损失函数变为：

反向传播 - 图40

这样求解反向传播 - 图41 和反向传播 - 图42 的梯度就简单了：

反向传播 - 图43

反向传播 - 图44

上面式子前两项之所以是Hadamard积反向传播 - 图45 形式，是因为反向传播 - 图46 都是针对同一层的神经元。如果我们考虑对于反向传播 - 图47 层的第反向传播 - 图48 个神经元，即反向传播 - 图49 ，那么整合这一层的神经元，自然是反向传播 - 图50 这样Hadamard积的形式。