pytorch nn.init 中实现的初始化函数 uniform, normal, const, Xavier, He initialization - 《动手学深度学习》

本文内容：

为什么需要Xavier 初始化？

文章第一段通过sigmoid激活函数讲述了为何初始化？

简答的说就是：

所以论文提出，在每一层网络保证输入和输出的方差相同。
2. xavier初始化的简单推导
https://blog.csdn.net/u011534057/article/details/51673458

对于Xavier初始化方式，pytorch提供了uniform和normal两种：

torch.nn.init.xavieruniform(tensor, gain=1)
均匀分布 ~ U ( − a , a )
其中， a的计算公式：

torch.nn.init.xaviernormal(tensor, gain=1)
正态分布~N ( 0 , s t d )
其中std的计算公式：

kaiming (He initialization)
Xavier在tanh中表现的很好，但在Relu激活函数中表现的很差，所何凯明提出了针对于Relu的初始化方法。
Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification He, K. et al. (2015)
该方法基于He initialization,其简单的思想是：
在ReLU网络中，假定每一层有一半的神经元被激活，另一半为0，所以，要保持方差不变，只需要在 Xavier 的基础上再除以2

也就是说在方差推到过程中，式子左侧除以2.
pytorch也提供了两个版本：

torch.nn.init.kaiminguniform(tensor, a=0, mode=‘fan_in’, nonlinearity=‘leaky_relu’)，
均匀分布 ~ U ( − b o u n d , b o u n d )
其中，bound的计算公式：

torch.nn.init.kaimingnormal(tensor, a=0, mode=‘fan_in’, nonlinearity=‘leaky_relu’),
正态分布~ N ( 0 , s t d )

其中，std的计算公式：

两函数的参数：

a：该层后面一层的激活函数中负的斜率(默认为ReLU，此时a=0)

mode：‘fan_in’ (default) 或者 ‘fan_out’. 使用fan_in保持weights的方差在前向传播中不变；使用fan_out保持weights的方差在反向传播中不变

针对于Relu的激活函数，基本使用He initialization，pytorch也是使用kaiming 初始化卷积层参数的