由dead relu引发的思考——正则化算法漫谈
机器学习算法中如何选取超参数:学习速率、正则项系数、minibatch size
图像分类算法优化技巧:Bag of Tricks for Image Classification
L1、L2正则化
描述:
||x|| 为 x 向量各个元素绝对值 p 次方和的 1p 次方
LP 范数不是一个范数,而是一组范数,LP 范数是范数的一般化定义:
当 p=0 时,就时 L0 范数(非严格),即 ||x||0,也称零范数;
当 p=1 时,就是 L1 范数,即 ||x||1,也称一范数;
当 p=2 时,就是 L2 范数,即 ||x||2,也称二范数;
当 p=∞时,就是 L∞范数,即 ||x||∞,也称无穷范数。
然而我们在实际将Lp范数用于正则化时,往往是舍去了根号部分,是如下的形式:
其中q=2就对应L2正则化。
Normalization
B站:Facebook人工智能实验室研究工程师吴育昕:Devils in BatchNorm
Dropout
Dropout是一种通过每次训练时随机丢弃网络中各神经元(一般是顶层,但任意位置均可)来达到抑制过拟合的方法。每次丢弃后相当于训练了一个新模型,所以这可以视为是Bagging集成化学习的一个特例(多模型平均抑制过拟合)。
深度学习中Dropout原理解析
autoencoding无监督预训练
Boosting
Early Stopping
调参方法
网格搜索/随机搜索
网格搜索是对超参的离散取值的笛卡尔乘积组合进行测试,而随机搜索通常是为每个超参定义一个边缘分布(bernoulli分布或者均匀分布等),不同超参独立取值。与网格搜索不同,随机搜索可以对超参进行连续取值,并且通常随机搜索的效率要比网格搜索更高。详见知之阅读器的花书-11.4:选择超参数。
