方差和分析SSE

SSE是一种简单的误差计算法, 一个很高的方差就意味着波动性很强,也就是说很不符合我们的预期,因此训练算法的原理实际上就是减小方差和误差。
方差和的误差和表示如下:
第六节 误差分析 - 图1
由于方差和的累加性质,如果训练集扩大,那么方差也会跟着扩大
因此方差和无法处理两个数量规模不同的数据集

均方根误差 RMS

均方根和方差和的关机就如同方差和标准差
将方差和进行开根号,即得到了输出
第六节 误差分析 - 图2
不同于方差和,均方差是用平均得到的,因此可以比较不同规模的数据

均方误差

神经网络和支持向量机等网络使用的误差分析方法,也就是均方根误差的平均
第六节 误差分析 - 图3
均方根误差是线性的,如果数据集的误差整体翻了一倍,则RMS也会翻一倍,但是均方误差不会。

误差影响

在对数据进行了大中小三个不同等级的测试后,误差对值的影响为:

加入误差的程度 SSE MSE RMS
2505 0.01 0.1
62634 0.251 0.501
250538 1.002 1.001
很大 25053881 100.216 10.011

训练集偏差

在训练集中,往往数据之间会出现噪声,一个优秀的算法会忽略噪声的影响,但是如一个算法将噪声也算在数据中的化,那么就会对结果产生很大影响,因为噪声的无意义的而且和正常数据差距很大,这样如果模型努力的给噪声找一个合理的意义,就会出现过拟合,导致出现判断失误,也叫做训练集偏差。

评估模型

对于一个需要进行处理的数据而言,一整个标签好的数据序列应该分出一部分用作不同的功能

  1. 训练集: 80%
  2. 验证集:15%
  3. 测试集:5%

以上只是大概占比,实际可以根据需求调整,因为不同的模型去处理同一个训练集,通过和验证集的误差进行比对,误差较小的就是更适合的模型。