深度学习 - (三) 循环神经网络 - 《IT_programmer》

(三) 循环神经网络

(三) 循环神经网络

25. 循环神经元（Recurrent Neuron）

——循环神经元是在T时间内将神经元的输出发送回给它。如果你看图，输出将返回输入t次。展开的神经元看起来像连接在一起的t个不同的神经元。这个神经元的基本优点是它给出了更广义的输出。

26. 循环神经网络（RNN）

——循环神经网络特别用于顺序数据，其中先前的输出用于预测下一个输出。在这种情况下，网络中有循环。隐藏神经元内的循环使他们能够存储有关前一个单词的信息一段时间，以便能够预测输出。隐藏层的输出在t时间戳内再次发送到隐藏层。展开的神经元看起来像上图。只有在完成所有的时间戳后，循环神经元的输出才能进入下一层。发送的输出更广泛，以前的信息保留的时间也较长。
然后根据展开的网络将错误反向传播以更新权重。这被称为通过时间的反向传播（BPTT）。

27. 消失梯度问题（Vanishing Gradient Problem）

——激活函数的梯度非常小的情况下会出现消失梯度问题。在权重乘以这些低梯度时的反向传播过程中，它们往往变得非常小，并且随着网络进一步深入而“消失”。这使得神经网络忘记了长距离依赖。这对循环神经网络来说是一个问题，长期依赖对于网络来说是非常重要的。
这可以通过使用不具有小梯度的激活函数ReLu来解决。

28. 激增梯度问题（Exploding Gradient Problem）

——这与消失的梯度问题完全相反，激活函数的梯度过大。在反向传播期间，它使特定节点的权重相对于其他节点的权重非常高，这使得它们不重要。这可以通过剪切梯度来轻松解决，使其不超过一定值。

**29. 1*1卷积**

https://blog.csdn.net/chaipp0607/article/details/60868689
1X1卷积的主要作用有以下几点：
1、降维（ dimension reductionality ）。比如，一张500 X500且厚度depth为100 的图片在20个filter上做1X1的卷积，那么结果的大小为500X500X20。
2、加入非线性。卷积层之后经过激励层，1X1的卷积在前一层的学习表示上添加了非线性激励（ non-linear activation ），提升网络的表达能力；

30. LRN ( Local Response Normalization) 局部响应归一化

31. Batchnorm 批规范化

参考：https://blog.csdn.net/qq_25737169/article/details/79048516
参考： https://blog.csdn.net/zhikangfu/article/details/53391840

32. Winograd

33. Im2col

https://blog.csdn.net/dwyane12138/article/details/78449898

(三) 循环神经网络 - 图2