炼丹法 - 《深度学习》

L1、L2正则化
Normalization
Dropout
autoencoding无监督预训练
Boosting
Early Stopping
调参方法

由dead relu引发的思考——正则化算法漫谈
 机器学习算法中如何选取超参数：学习速率、正则项系数、minibatch size
图像分类算法优化技巧：Bag of Tricks for Image Classification

L1、L2正则化

炼丹法 - 图1

描述：
||x|| 为 x 向量各个元素绝对值 p 次方和的 1p 次方
LP 范数不是一个范数，而是一组范数，LP 范数是范数的一般化定义：
当 p=0 时，就时 L0 范数（非严格），即 ||x||0，也称零范数；
当 p=1 时，就是 L1 范数，即 ||x||1，也称一范数；
当 p=2 时，就是 L2 范数，即 ||x||2，也称二范数；
当 p=∞时，就是 L∞范数，即 ||x||∞，也称无穷范数。

然而我们在实际将Lp范数用于正则化时，往往是舍去了根号部分，是如下的形式：
炼丹法 - 图2
其中q=2就对应L2正则化。

参考：
深入理解L1、L2正则化
 【直观详解】什么是正则化

Normalization

B站：Facebook人工智能实验室研究工程师吴育昕：Devils in BatchNorm

Dropout

Dropout是一种通过每次训练时随机丢弃网络中各神经元（一般是顶层，但任意位置均可）来达到抑制过拟合的方法。每次丢弃后相当于训练了一个新模型，所以这可以视为是Bagging集成化学习的一个特例（多模型平均抑制过拟合）。
深度学习中Dropout原理解析

autoencoding无监督预训练

Boosting

Early Stopping

调参方法

网格搜索/随机搜索

网格搜索是对超参的离散取值的笛卡尔乘积组合进行测试，而随机搜索通常是为每个超参定义一个边缘分布（bernoulli分布或者均匀分布等），不同超参独立取值。与网格搜索不同，随机搜索可以对超参进行连续取值，并且通常随机搜索的效率要比网格搜索更高。详见知之阅读器的花书-11.4：选择超参数。

遗传算法

粒子群优化

贝叶斯优化

贝叶斯超参优化方法
 Auto Machine Learning笔记 - Bayesian Optimization