方差和分析SSE
SSE是一种简单的误差计算法, 一个很高的方差就意味着波动性很强,也就是说很不符合我们的预期,因此训练算法的原理实际上就是减小方差和误差。
方差和的误差和表示如下:
由于方差和的累加性质,如果训练集扩大,那么方差也会跟着扩大
因此方差和无法处理两个数量规模不同的数据集
均方根误差 RMS
均方根和方差和的关机就如同方差和标准差
将方差和进行开根号,即得到了输出
不同于方差和,均方差是用平均得到的,因此可以比较不同规模的数据
均方误差
神经网络和支持向量机等网络使用的误差分析方法,也就是均方根误差的平均
均方根误差是线性的,如果数据集的误差整体翻了一倍,则RMS也会翻一倍,但是均方误差不会。
误差影响
在对数据进行了大中小三个不同等级的测试后,误差对值的影响为:
| 加入误差的程度 | SSE | MSE | RMS |
|---|---|---|---|
| 小 | 2505 | 0.01 | 0.1 |
| 中 | 62634 | 0.251 | 0.501 |
| 大 | 250538 | 1.002 | 1.001 |
| 很大 | 25053881 | 100.216 | 10.011 |
训练集偏差
在训练集中,往往数据之间会出现噪声,一个优秀的算法会忽略噪声的影响,但是如一个算法将噪声也算在数据中的化,那么就会对结果产生很大影响,因为噪声的无意义的而且和正常数据差距很大,这样如果模型努力的给噪声找一个合理的意义,就会出现过拟合,导致出现判断失误,也叫做训练集偏差。
评估模型
对于一个需要进行处理的数据而言,一整个标签好的数据序列应该分出一部分用作不同的功能
- 训练集: 80%
- 验证集:15%
- 测试集:5%
以上只是大概占比,实际可以根据需求调整,因为不同的模型去处理同一个训练集,通过和验证集的误差进行比对,误差较小的就是更适合的模型。
