image.png
    image.png
    image.png
    3.1 基于固定方差的参数初始化

    按我个人的理解,怎么选取这个固定方差本身就是个玄学问题。因为如果你能确信你选的这个方差效果很好,那不是代表已经知道了参数的分布空间吗?或者说只是个起始阶段,所以选哪个方差的区别不大?
    image.png
    image.png
    3.2 基于方差缩放的参数初始化

    image.png
    3.2.1 Xavier初始化
    按我的个人理解,Xavier初始化是在维持神经元输入和输出的方差一致的目的下,用来求参数方差的一种方法。求得参数方差后,再和3.1的内容相结合,即可求得参数初始化的采样区间。

    image.png
    image.png
    image.png
    image.png
    3.2.2 He(Kaiming)初始化
    根据上面的公式,因为神经元上输出的方差变为输入的一半了,为了使输出的方差继续等于输入的方差,而M为神经元的个数,不会变,MVar=1,所以Var变为之前的两倍。
    image.png
    image.png
    所以He初始化和Xavier初始化的不同之处只是因为激活函数不同,事实上思想都是使神经元输入的方差=输出的方差。

    3.3 正交初始化*