模型误差分析 - 《算法笔记》

误差分析

为了降低验证集错误率，一个思路是分析验证集中各个类型的数据，比如猫咪识别器中，随机抽出一部分图片，人工标记各类型的百分比（如狗、大猫类、模糊图片等），找出百分比最高的类，然后针对该类进行优化，降低错误率

验证集存在部分标签错误属于随机误差，通常不值得化过多精力处理，深度学习算法对于随机误差具有很好的稳健性，但对于系统误差表现不佳。

从验证集中抽样部分数据，人工检查误标签数据比例，乘以算法在验证集上的错误率可以得到这部分误标签对结果的贡献比例

建造实用的深度学习系统时，需要一些更偏向人工的错误分析和人为见解

对于某些端到端的深度学习系统，由于目标数据集不够，可能会从其它途径获取数据，导致这些数据来自不同的分布。处理办法是：从目标数据集抽取出验证集和测试集，将剩下的目标数据集和其它所有的数据混合作为训练集。（验证集和测试集决定了模型的训练目标，必须用目标数据集）

确定五个值：

偏差、方差、数据失配

注：进行数据合成时，如果只针对部分子集进行数据合成，可能导致模型对该子集过拟合。

pre-training, fine tunning

通过同一网络，产生多个输出，但各输出并不是同一任务的多个类别（多分类），而是不同任务（多任务），多任务间共享部分层或多层，通常用单一模型多任务比多个模型每个模型处理一个任务效果更好（由于网络中共享了部分低维特征信息，而这些信息通过所有的数据进行训练而得）。

当训练样本中缺少部分数据时，训练时忽略该数据即可

适用：

优势：

缺点：

结合任务和数据量，确定使用端到端学习的区间。