精度 = 1 - 错误率
泛化误差
过拟合overfitting
欠拟合underfintting
过拟合无法避免,因为我们相信N != NP
2.2 模型评估
1、留出法
2、交叉验证法 k折交叉验证 留一法
3、自助法 改变了初始数据集的分布,会引入估计偏差
训练集 验证集 | 测试集
2.3 性能量度—评价泛化能力
均方误差
错误率和精度
查全率
查准率
PR图
算术平均
几何平均
调和平均
ROC图
其面积称为AUC图
代价敏感错误率和代价曲线 ??
2.4 比较检验
2.5偏差和方差
泛化误差可分解为偏差 方差和噪声之和
泛化性能与学习算法的能力、数据的充分性和学习任务本身的难度所共同决定
偏差:刻画学习算法本身的拟合能力
方差:刻画训练集数据的变动对学习性能的影响
偏差-方差窘境