NFL定理(No Free Lunch Theorem) : 总误差与学习算法无关（前提：所有问题出现的机会相同、或所有问题同等重要）
2.2 评估方法
3.线性模型
- 3.2线性回归
- 3.3对数几率回归
2.机器学习课程
- 1.梯度下降
- 2.Normal equation(正规方程)
准备

复试：
1.java与c++，编译和运行的区别
垃圾回收，面向对象，类的继承
2.垃圾回收机制，智能指针
3.项目，机器学习
4.算法，动态规划，0/1背包，排序算法

NFL定理(No Free Lunch Theorem) : 总误差与学习算法无关（前提：所有问题出现的机会相同、或所有问题同等重要）

2.2 评估方法

1.划分测试集T和训练集S的方法（数据集D）

1）留出法

机器学习 - 图2
注意：

训练集和测试集的划分尽可能保持数据分布的一致性，避免数据划分过程引入额外偏差。
从采样（sampling）角度看待数据集的划分过程，保留类别比例的采样方式通常称为“分层采样”（stratified sampling）。
采用留出法时，一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果
测试集小时，评估结果不够稳定准确；训练集小时，降低了评估结果的保真性（fidelity）。
常见做法：大约2/3~4/5的样本用于训练，剩余样本用于测试。

2）交叉验证法

机器学习 - 图3

每个子集都尽可能保持数据分布的一致性，即从D中通过分层采样得到。
每次采用k-1个子集的并集作为训练集，余下的一个作为测试集，获得k组训练/测试集，从而可进行k次训练和测试，最终返回的是k个测试结果的均值。
交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值，为强调这一点，通常把交叉验证法称为“k折交叉验证”（k-fold cross validation）。
k常用取值10，称为10折交叉验证，其他常用的k取值有5、20
与留出法相似，数据集划分存在多种划分方式，为减小因样本划分不同引入的差别，k折交叉验证一般随机使用不同划分方式重复p次，最终评估结果取p次k折交叉验证结果的均值，例如“10次10折交叉验证”

交叉验证法的特例：留一法
数据集D中有m个样本，令k等于m，则得到特例：留一法
留一法不受随机样本划分方式的影响。
绝大多数情况下，留一法中被实际评估的模型与期望评估的用D训练出的模型很相似，评估结果往往被认为比较准确。
缺陷：数据集比较大时，训练m个模型的计算开销是难以忍受的。另外，留一法的估计结果也未必永远比其他评估方法准确。

3）自助法（bootstrapping）
以自主采样法(bootstrapping sampling)为基础，给定m个样本数据集D，对它进行采样产生D’：每次随机从D中挑选一个样本，将其拷贝放入D’，再将样本放回D中，使样本下次采样时仍可被采到；这个过程重复执行m次，得到包含了m个样本的数据集D’，这是自主采样的结果。
简单估计m次采样中始终不被采到的概率 ,取极值得到：

即通过自主采样，初始数据集约有36.8%的样本未出现在采样数据集D’中，于是将D’作为训练集，D\D’作为测试集，这样实际评估模型和期望评估模型都是m个训练样本，还有剩余近1/3用于测试，这样的测试结果也称为“包外估计”（out-of-bag estimate）
优点

在数据集较小，难以有效划分训练/测试集时很有用
自助法能从初始数据中差生多个不同的训练集，对集成学习等方法有很大的好处

缺点

改变了初始数据集的分数，引入了估计偏差，因此初始数据量足够时，留出法和交叉验证法更常用

2.调参与最终模型

调参：选定范围和步长，产生候选值，从候选值中选择最终参数值，往往不是“最佳”，这是计算开销和性能估计之间进行折中的结果。

注：一般在使用一部分数据训练选定学习算法和参数配置后，用数据集D重新训练模型，这个模型在训练过程中使用了所有m格样本，才是最终提交给用户的模型。
注意：通常把学得模型在实际应用中遇到的数据称为测试集，模型评估和选择中用于评估测试的数据集被称为验证集（validation set）。

3.性能度量

回归任务最常用的性能度量——“均方误差”(mean squared error)
分类任务中常用的性能度量：

3.1 错误率和精度，适用于二分类任务和多分类任务
错误率：分类错误的样本占样本总数比例
精度：分类正确样本占样本总数的比例

3.2 查准率（precision）、查全率（recall）与F1
P-R图，曲线A完全包住曲线B则A的性能优于前者。
比较合理的判据：P-R曲线下面积的大小
平衡点（Break Even Point，简称BEP），可基于BEP比较学习器的性能

BEP过于简化了写，更常用的是F1度量：
（实际是基于查准率和查全率的调和平均）

F1度量的一般形式：
(实际是加权调和平均)
> 0 度量了查全率对查准率的相对重要性， = 1退化为标准的F1度量；> 1时查准率有更大影响

3.3 ROC与AUC
ROC全称“受试者工作特征”（Receiver Operating Characteristic）曲线，用于研究学习器泛化性能
纵轴为“真正例率”（True Positive Rete，简称TPR）