BV1Wy4y1y7rc
偏差:使用相同的模型参数与不同的数据集建立模型,并使用相同的测试数据集去预测,则每一个样本的偏差就是所有模型对该样本的预测值的求平均(期望值)减去真实值
方差:使用相同的模型参数参数与不同数据建立模型,并使用相同的测试数据集去预测,则每个一样本的方差就是每个模型的预测值与预测期望值(每个模型的预测值求平均)的差求平方和,最后除以模型数。
每个点代表一个样本
模型误差 = 偏差 + 方差 + 不可避免的误差(采集的样本有问题)
导致高偏差的主要原因:对于问题本身的假设不正确,例如对非线性数据使用线性回归(欠拟合underfitting)
导致高方差的主要原因:使用的模型过于复杂(过拟合overfitting)
方差和偏差通常的都是想生相伴的,一个低了,另一个就会高,所以只能求相对平衡。
非参数学习的算法通常都是高方差,因为不对数据进行假设
参数学习的算法通常搜是高偏差,因为对数据具有极强的假设
降低高方差的方法:
降低模型的复杂程度
减少数据维度(降噪)
增加样本数(让样本的数量足以支撑对数据的参数个数)
使用验证集
模型正则化
机器学习主要的困难是在方差高上,因为解决偏差很方便,只要相对的拟合就可以,但方差高的离谱的话,偏差应该也会高的离谱,因为实在是过于拟合了。新来的样本可能会分配到一个非常遥远而奇怪的地方。