批标准化BN是一种自适应重参数化的方法,试图解决训练非常深的模型的困难。批标准化主要解决的是训练极深网络时梯度消失的问题
    batch normalization - 图1
    BN具有轻微正则化的效果,可以和dropout一起使用
    主要是归一化激活值前的隐藏单元来加速训练,正则化是副作用
    BN:训练迭代中网络激活的分布的变化对网络训练带来的破坏
    BN(Batch Normalization)几乎是目前神经网络的必选组件,但是使用BN有两个前提要求:batchsize不能太小;每一个minibatch和整体数据集同分布。BN通过在每次训练迭代的时候,利用minibatch计算出的当前batch的均值和方差,进行标准化来缓解这个问题。
    解决方法

    • BRN:Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-Normalized Models

      1. 训练过程中,由于batchsize较小,当前minibatch统计到的均值和方差与全部数据有差异,那么就对当前的<br /> 值和方差进行修正。修正的方法主要是利用到通过滑动平均收集到的全局均值和标准差。
    • CBN:Cross-Iteration Batch Normalization

       当前batch的均值和方差来自之前的K次迭代均值和方差的平均,由于网络权重一直在更新,所以不能直接粗<br />       暴求平均。本文而是利用泰勒公式估计前面的迭代在当前权重下的数值。