统计学习 - 基础理论 - 《机器学习基础》

基础定义
误差
No Free Lunch 定理

基础定义

空间

输入空间 $基础理论 - 图1$
输出空间 $基础理论 - 图2$

它们共同构成了一个样本空间。

真实函数

对于样本空间中的样本 $基础理论 - 图3$ %5Cin%20%5Cmathcal%7BX%7D%5Ctimes%5Cmathcal%7BY%7D#card=math&code=%28x%2Cy%29%5Cin%20%5Cmathcal%7BX%7D%5Ctimes%5Cmathcal%7BY%7D) ，我们假定 $基础理论 - 图4$ 和 $基础理论 - 图5$ 之间的关系都可以通过一个未知的真实函数 $基础理论 - 图6$ #card=math&code=y%3Dg%28x%29) 或真实条件概率分布 $基础理论 - 图7$ #card=math&code=p_r%28y%5Cmid%20x%29) 来描述。

机器学习的目的就是找到这个真实函数 $基础理论 - 图8$ #card=math&code=y%3Dg%28x%29) 或真实条件概率分布 $基础理论 - 图9$ #card=math&code=p_r%28y%5Cmid%20x%29) .

假设空间

但由于我们不知道真实函数的具体形式，而所有函数的组合有无穷无尽种，所以我们需要缩小范围，我们根据经验（关于问题的先验知识）假设一个函数集合 $基础理论 - 图10$ ，称为假设空间（ Hypothesis Space ），然后在假设空间中寻找最优的函数。

假设空间 $基础理论 - 图11$ 通常是一个参数化的函数族

$基础理论 - 图12$ %5Cmid%20%5Ctheta%5Cin%20%5Cmathbb%7BR%7D%5Em%5C%7D%0A#card=math&code=%5Cmathcal%7BF%7D%3D%5C%7Bf%28x%3B%5Ctheta%29%5Cmid%20%5Ctheta%5Cin%20%5Cmathbb%7BR%7D%5Em%5C%7D%0A)

训练集

训练集 $基础理论 - 图13$ %2C%5Cldots%2C(x%7Bm%7D%2Cy%7Bm%7D)%5C%7D#card=math&code=D%3D%5C%7B%28x1%2Cy_1%29%2C%5Cldots%2C%28x%7Bm%7D%2Cy_%7Bm%7D%29%5C%7D) 是由 $基础理论 - 图14$ 个独立同分布（i.i.d.）的样本组成，其中每个样本 $基础理论 - 图15$ %5Cin%20%5Cmathcal%7BX%7D%5Ctimes%5Cmathcal%7BY%7D#card=math&code=%28x%2Cy%29%5Cin%20%5Cmathcal%7BX%7D%5Ctimes%5Cmathcal%7BY%7D) 都是由关于某个未知的联合分布 $基础理论 - 图16$ 产生，其真实函数为 $基础理论 - 图17$ #card=math&code=p_r%28x%2Cy%29)，我们可以记为 $基础理论 - 图18$

问题

机器学习的目标就是：在假设空间 $基础理论 - 图19$ 中选出最好的假设（ Hypothesis） $基础理论 - 图20$ ，使得泛化误差最小

误差

泛化误差

模型 $基础理论 - 图21$ #card=math&code=f%28x%3B%5Ctheta%29) 对服从真实分布的数据的预测误差的期望即为泛化误差（Generalization error）：

$基础理论 - 图22$ %3D%5Cunderset%7B(x%2C%20y)%20%5Csim%20%5Cmathcal%7BD%7D%7D%7B%5Cmathbb%7BE%7D%7DL(y%2C%20f(%5Cboldsymbol%7Bx%7D%20%3B%20%5Ctheta))%0A#card=math&code=R%28f%29%3D%5Cunderset%7B%28x%2C%20y%29%20%5Csim%20%5Cmathcal%7BD%7D%7D%7B%5Cmathbb%7BE%7D%7DL%28y%2C%20f%28%5Cboldsymbol%7Bx%7D%20%3B%20%5Ctheta%29%29%0A)

其中 $基础理论 - 图23$ #card=math&code=L%28%5Ccdot%2C%5Ccdot%29) 为损失函数（Loss function）

经验误差

然而计算泛化误差需要已知真实函数 $基础理论 - 图24$ #card=math&code=y%3Dg%28x%29) 或联合分布 $基础理论 - 图25$ #card=math&code=pr%28y%5Cmid%20x%29) ，我们通常只能计算经验误差（ Empirical error ），即在训练集 ![](https://g.yuque.com/gr/latex?D%3D%5C%7B(x%7B(n)%7D%2Cy%7B(n)%7D%5C%7D%7Bn%3D1%7D%5Em#card=math&code=D%3D%5C%7B%28x%7B%28n%29%7D%2Cy%7B%28n%29%7D%5C%7D_%7Bn%3D1%7D%5Em) 上的平均误差

$基础理论 - 图26$ %3D%5Cfrac%7B1%7D%7Bm%7D%20%5Csum%7Bn%3D1%7D%5E%7Bm%7D%20L%5Cleft(y_n%2C%20f%5Cleft(%5Cboldsymbol%7Bx%7D_n%3B%20%5Ctheta%5Cright)%5Cright)%0A#card=math&code=%5Cwidehat%7BR%7D%7BD%7D%28f%29%3D%5Cfrac%7B1%7D%7Bm%7D%20%5Csum_%7Bn%3D1%7D%5E%7Bm%7D%20L%5Cleft%28y_n%2C%20f%5Cleft%28%5Cboldsymbol%7Bx%7D_n%3B%20%5Ctheta%5Cright%29%5Cright%29%0A)

我们可以很直观地感受到：经验误差的期望 = 泛化误差

$基础理论 - 图27$ %20%5Cright%5D%20%3DR%5Cleft(%20f%20%5Cright)%0A#card=math&code=%5Cunderset%7BD%5Csim%20%5Cmathcal%7BD%7D%5Em%7D%7B%5Cmathbb%7BE%7D%7D%5Cleft%5B%20%5Cwidehat%7BR%7D_D%5Cleft%28%20f%20%5Cright%29%20%5Cright%5D%20%3DR%5Cleft%28%20f%20%5Cright%29%0A)

实际上也确实如此：

$基础理论 - 图28$ %20%5Cright%5D%20%26%3D%5Cunderset%7B%5Cbegin%7Barray%7D%7Bc%7D%0A%09D%5Csim%20%5Cmathcal%7BD%7D%5Em%5C%5C%0A%09%5Cleft(%20x%2Cy%20%5Cright)%20%5Cin%20D%5C%5C%0A%5Cend%7Barray%7D%7D%7B%5Cmathbb%7BE%7D%7D%5Cleft%5B%20%5Cfrac%7B1%7D%7Bm%7D%5Csum%7Bn%3D1%7D%5Em%7BL%5Cleft(%20y_n%2Cf%5Cleft(%20x_n%20%5Cright)%20%5Cright)%7D%20%5Cright%5D%20%0A%5C%5C%0A%26%3D%5Cunderset%7B%5Cleft(%20x%2Cy%20%5Cright)%20%5Csim%20%5Cmathcal%7BD%7D%7D%7B%5Cmathbb%7BE%7D%7D%5Cleft%5B%20%5Cfrac%7B1%7D%7Bm%7D%5Csum%7Bn%3D1%7D%5Em%7BL%5Cleft(%20y%2Cf%5Cleft(%20x%20%5Cright)%20%5Cright)%7D%20%5Cright%5D%20%0A%5C%5C%0A%26%3D%5Cunderset%7B%5Cleft(%20x%2Cy%20%5Cright)%20%5Csim%20%5Cmathcal%7BD%7D%7D%7B%5Cmathbb%7BE%7D%7D%5Cleft%5B%20L%5Cleft(%20y%2Cf%5Cleft(%20x%20%5Cright)%20%5Cright)%20%5Cright%5D%20%0A%5C%5C%0A%26%3DR%5Cleft(%20f%20%5Cright)%0A%5Cend%7Balign*%7D%0A#card=math&code=%5Cbegin%7Balign%2A%7D%0A%5Cunderset%7BD%5Csim%20%5Cmathcal%7BD%7D%5Em%7D%7B%5Cmathbb%7BE%7D%7D%5Cleft%5B%20%5Cwidehat%7BR%7DD%5Cleft%28%20f%20%5Cright%29%20%5Cright%5D%20%26%3D%5Cunderset%7B%5Cbegin%7Barray%7D%7Bc%7D%0A%09D%5Csim%20%5Cmathcal%7BD%7D%5Em%5C%5C%0A%09%5Cleft%28%20x%2Cy%20%5Cright%29%20%5Cin%20D%5C%5C%0A%5Cend%7Barray%7D%7D%7B%5Cmathbb%7BE%7D%7D%5Cleft%5B%20%5Cfrac%7B1%7D%7Bm%7D%5Csum%7Bn%3D1%7D%5Em%7BL%5Cleft%28%20yn%2Cf%5Cleft%28%20x_n%20%5Cright%29%20%5Cright%29%7D%20%5Cright%5D%20%0A%5C%5C%0A%26%3D%5Cunderset%7B%5Cleft%28%20x%2Cy%20%5Cright%29%20%5Csim%20%5Cmathcal%7BD%7D%7D%7B%5Cmathbb%7BE%7D%7D%5Cleft%5B%20%5Cfrac%7B1%7D%7Bm%7D%5Csum%7Bn%3D1%7D%5Em%7BL%5Cleft%28%20y%2Cf%5Cleft%28%20x%20%5Cright%29%20%5Cright%29%7D%20%5Cright%5D%20%0A%5C%5C%0A%26%3D%5Cunderset%7B%5Cleft%28%20x%2Cy%20%5Cright%29%20%5Csim%20%5Cmathcal%7BD%7D%7D%7B%5Cmathbb%7BE%7D%7D%5Cleft%5B%20L%5Cleft%28%20y%2Cf%5Cleft%28%20x%20%5Cright%29%20%5Cright%29%20%5Cright%5D%20%0A%5C%5C%0A%26%3DR%5Cleft%28%20f%20%5Cright%29%0A%5Cend%7Balign%2A%7D%0A)

贝叶斯误差

贝叶斯误差（Bayes error）是任意可测函数 $基础理论 - 图29$ 能达到的最小泛化误差，注意此处的 $基础理论 - 图30$ 不一定在假设空间 $基础理论 - 图31$ 中.

$基础理论 - 图32$ %0A#card=math&code=R%5E%7B%2A%7D%3D%5Cinf_%7Bh%7D%20R%28f%29%0A)

噪声

大部分情况下，贝叶斯误差的存在是由噪声造成的，例如对于最简单的回归问题：

$基础理论 - 图33$

其中噪声 $基础理论 - 图34$ 服从高斯分布，即 $基础理论 - 图35$ #card=math&code=%5Cepsilon%20%5Csim%20N%280%2C%5Csigma%5E2%29) ，那么我们知道最优模型为 $基础理论 - 图36$ %3Dx#card=math&code=f%5E%7B%5Cstar%7D%28x%29%3Dx)，其泛化误差为：

$基础理论 - 图37$ %20%26%3D%5Cunderset%7By-x%5Csim%20N%5Cleft(%20%5Ctext%7B0%2C%7D%5Csigma%20%5E2%20%5Cright)%7D%7B%5Cmathbb%7BE%7D%7D%5Cleft%5B%20%5Cleft(%20y-f%5E%7B%7D%5Cleft(%20x%20%5Cright)%20%5Cright)%20%5E2%20%5Cright%5D%20%0A%5C%5C%0A%26%3D%5Cunderset%7By-x%5Csim%20N%5Cleft(%20%5Ctext%7B0%2C%7D%5Csigma%20%5E2%20%5Cright)%7D%7B%5Cmathbb%7BE%7D%7D%5Cleft%5B%20%5Cleft(%20y-x%20%5Cright)%20%5E2%20%5Cright%5D%20%0A%5C%5C%0A%26%3D%5Cunderset%7B%5Cepsilon%20%5Csim%20N%5Cleft(%20%5Ctext%7B0%2C%7D%5Csigma%20%5E2%20%5Cright)%7D%7B%5Cmathbb%7BE%7D%7D%5Cleft%5B%20%5Cepsilon%20%5E2%20%5Cright%5D%20%0A%5C%5C%0A%26%3D%5Csigma%20%5E2%0A%5Cend%7Balign%7D%0A#card=math&code=%5Cbegin%7Balign%2A%7D%0AR%5Cleft%28%20f%5E%7B%2A%7D%20%5Cright%29%20%26%3D%5Cunderset%7By-x%5Csim%20N%5Cleft%28%20%5Ctext%7B0%2C%7D%5Csigma%20%5E2%20%5Cright%29%7D%7B%5Cmathbb%7BE%7D%7D%5Cleft%5B%20%5Cleft%28%20y-f%5E%7B%2A%7D%5Cleft%28%20x%20%5Cright%29%20%5Cright%29%20%5E2%20%5Cright%5D%20%0A%5C%5C%0A%26%3D%5Cunderset%7By-x%5Csim%20N%5Cleft%28%20%5Ctext%7B0%2C%7D%5Csigma%20%5E2%20%5Cright%29%7D%7B%5Cmathbb%7BE%7D%7D%5Cleft%5B%20%5Cleft%28%20y-x%20%5Cright%29%20%5E2%20%5Cright%5D%20%0A%5C%5C%0A%26%3D%5Cunderset%7B%5Cepsilon%20%5Csim%20N%5Cleft%28%20%5Ctext%7B0%2C%7D%5Csigma%20%5E2%20%5Cright%29%7D%7B%5Cmathbb%7BE%7D%7D%5Cleft%5B%20%5Cepsilon%20%5E2%20%5Cright%5D%20%0A%5C%5C%0A%26%3D%5Csigma%20%5E2%0A%5Cend%7Balign%2A%7D%0A)

也就是说：

$基础理论 - 图38$

No Free Lunch 定理

对于离散的样本空间 $基础理论 - 图39$ ，我们使用算法 $基础理论 - 图40$ 在训练集 $基础理论 - 图41$ 上产生假设函数 $基础理论 - 图42$ 的概率为 $基础理论 - 图43$ #card=math&code=P%28h%5Cmid%20X%2C%5Cmathfrak%7BL%7D_%7Ba%7D%29)，令 $基础理论 - 图44$ 表示真实的目标函数.

那么 $基础理论 - 图45$ 在训练集之外的所有样本 $基础理论 - 图46$ 上的误差期望为：

$基础理论 - 图47$ %20%5Cneq%20f(%5Cboldsymbol%7Bx%7D))%20%7C%20X%2C%20f%2C%5Cmathfrak%7BL%7D%7Ba%7D%5Cright%5D%3D%5Csum%7Bh%7D%20%5Csum%7B%5Cboldsymbol%7Bx%7D%20%5Cin%20%5Cmathcal%7BX%7D-X%7D%20P(%5Cboldsymbol%7Bx%7D)%20%5Cmathbb%7BI%7D(h(%5Cboldsymbol%7Bx%7D)%20%5Cneq%20f(%5Cboldsymbol%7Bx%7D))%20P%5Cleft(h%20%7C%20X%2C%20%5Cmathfrak%7BL%7D%7Ba%7D%5Cright)%0A#card=math&code=%5Cmathbb%7BE%7D%5Cleft%5B%5Cmathbb%7BI%7D%28h%28%5Cboldsymbol%7Bx%7D%29%20%5Cneq%20f%28%5Cboldsymbol%7Bx%7D%29%29%20%7C%20X%2C%20f%2C%5Cmathfrak%7BL%7D%7Ba%7D%5Cright%5D%3D%5Csum%7Bh%7D%20%5Csum%7B%5Cboldsymbol%7Bx%7D%20%5Cin%20%5Cmathcal%7BX%7D-X%7D%20P%28%5Cboldsymbol%7Bx%7D%29%20%5Cmathbb%7BI%7D%28h%28%5Cboldsymbol%7Bx%7D%29%20%5Cneq%20f%28%5Cboldsymbol%7Bx%7D%29%29%20P%5Cleft%28h%20%7C%20X%2C%20%5Cmathfrak%7BL%7D%7Ba%7D%5Cright%29%0A)

为了简化起见，我们考虑二分类问题，认为真实目标函数是任何一个将 $基础理论 - 图48$ 映射到 $基础理论 - 图49$ 上的函数，例如样本空间只有两个样本时：基础理论 - 图50 ，真实函数 $基础理论 - 图51$ 可以是以下几种之一，且每一种的可能性都相等：

$基础理论 - 图52$ %3D0%2Cf_1(%5Cboldsymbol%7Bx%7D_2)%3D0%3B%5C%5C%0Af_2%3Af_2(%5Cboldsymbol%7Bx%7D_1)%3D0%2Cf_2(%5Cboldsymbol%7Bx%7D_2)%3D1%3B%5C%5C%0Af_3%3Af_3(%5Cboldsymbol%7Bx%7D_1)%3D1%2Cf_3(%5Cboldsymbol%7Bx%7D_2)%3D0%3B%5C%5C%0Af_4%3Af_4(%5Cboldsymbol%7Bx%7D_1)%3D1%2Cf_4(%5Cboldsymbol%7Bx%7D_2)%3D1%3B%0A%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0Af_1%3Af_1%28%5Cboldsymbol%7Bx%7D_1%29%3D0%2Cf_1%28%5Cboldsymbol%7Bx%7D_2%29%3D0%3B%5C%5C%0Af_2%3Af_2%28%5Cboldsymbol%7Bx%7D_1%29%3D0%2Cf_2%28%5Cboldsymbol%7Bx%7D_2%29%3D1%3B%5C%5C%0Af_3%3Af_3%28%5Cboldsymbol%7Bx%7D_1%29%3D1%2Cf_3%28%5Cboldsymbol%7Bx%7D_2%29%3D0%3B%5C%5C%0Af_4%3Af_4%28%5Cboldsymbol%7Bx%7D_1%29%3D1%2Cf_4%28%5Cboldsymbol%7Bx%7D_2%29%3D1%3B%0A%5Cend%7Baligned%7D%0A)

然后我们对所有可能的 $基础理论 - 图53$ 的期望误差求和：

$基础理论 - 图54$ %20%5Cneq%20f(%5Cboldsymbol%7Bx%7D))%20%7C%20X%2C%20f%2C%5Cmathfrak%7BL%7D%7Ba%7D%5Cright%5D%5Cright%5D%20%26%3D%5Ccfrac%7B1%7D%7B2%5E%7B%7C%5Cmathcal%7BX%7D%7C%7D%7D%5Csum_f%5Csum_h%5Csum%7B%5Cboldsymbol%7Bx%7D%5Cin%5Cmathcal%7BX%7D-X%7DP(%5Cboldsymbol%7Bx%7D)%5Cmathbb%7BI%7D(h(%5Cboldsymbol%7Bx%7D)%5Cneq%20f(%5Cboldsymbol%7Bx%7D))P(h%5Cvert%20X%2C%5Cmathfrak%7BL%7Da)%20%5C%5C%0A%26%3D%5Ccfrac%7B1%7D%7B2%5E%7B%7C%5Cmathcal%7BX%7D%7C%7D%7D%5Csum%7B%5Cboldsymbol%7Bx%7D%5Cin%5Cmathcal%7BX%7D-X%7DP(%5Cboldsymbol%7Bx%7D)%20%5CsumhP(h%5Cvert%20X%2C%5Cmathfrak%7BL%7D_a)%5Csum_f%5Cmathbb%7BI%7D(h(%5Cboldsymbol%7Bx%7D)%5Cneq%20f(%5Cboldsymbol%7Bx%7D))%20%5C%5C%0A%26%3D%5Ccfrac%7B1%7D%7B2%5E%7B%7C%5Cmathcal%7BX%7D%7C%7D%7D%5Csum%7B%5Cboldsymbol%7Bx%7D%5Cin%5Cmathcal%7BX%7D-X%7DP(%5Cboldsymbol%7Bx%7D)%20%5CsumhP(h%5Cvert%20X%2C%5Cmathfrak%7BL%7D_a)%5Ccfrac%7B1%7D%7B2%7D2%5E%7B%5Cvert%20%5Cmathcal%7BX%7D%20%5Cvert%7D%20%5C%5C%0A%26%3D%5Ccfrac%7B1%7D%7B2%7D%5Csum%7B%5Cboldsymbol%7Bx%7D%5Cin%5Cmathcal%7BX%7D-X%7DP(%5Cboldsymbol%7Bx%7D)%20%5CsumhP(h%5Cvert%20X%2C%5Cmathfrak%7BL%7D_a)%20%5C%5C%0A%26%3D%5Ccfrac%7B1%7D%7B2%7D%5Csum%7B%5Cboldsymbol%7Bx%7D%5Cin%5Cmathcal%7BX%7D-X%7DP(%5Cboldsymbol%7Bx%7D)%20%5Ccdot%201%5C%5C%0A%5Cend%7Baligned%7D%0A#card=math&code=%5Cbegin%7Baligned%7D%0A%5Cmathbb%7BE%7D%7Bf%7D%5Cleft%20%5B%5Cmathbb%7BE%7D%5Cleft%5B%5Cmathbb%7BI%7D%28h%28%5Cboldsymbol%7Bx%7D%29%20%5Cneq%20f%28%5Cboldsymbol%7Bx%7D%29%29%20%7C%20X%2C%20f%2C%5Cmathfrak%7BL%7D%7Ba%7D%5Cright%5D%5Cright%5D%20%26%3D%5Ccfrac%7B1%7D%7B2%5E%7B%7C%5Cmathcal%7BX%7D%7C%7D%7D%5Csumf%5Csum_h%5Csum%7B%5Cboldsymbol%7Bx%7D%5Cin%5Cmathcal%7BX%7D-X%7DP%28%5Cboldsymbol%7Bx%7D%29%5Cmathbb%7BI%7D%28h%28%5Cboldsymbol%7Bx%7D%29%5Cneq%20f%28%5Cboldsymbol%7Bx%7D%29%29P%28h%5Cvert%20X%2C%5Cmathfrak%7BL%7Da%29%20%5C%5C%0A%26%3D%5Ccfrac%7B1%7D%7B2%5E%7B%7C%5Cmathcal%7BX%7D%7C%7D%7D%5Csum%7B%5Cboldsymbol%7Bx%7D%5Cin%5Cmathcal%7BX%7D-X%7DP%28%5Cboldsymbol%7Bx%7D%29%20%5CsumhP%28h%5Cvert%20X%2C%5Cmathfrak%7BL%7D_a%29%5Csum_f%5Cmathbb%7BI%7D%28h%28%5Cboldsymbol%7Bx%7D%29%5Cneq%20f%28%5Cboldsymbol%7Bx%7D%29%29%20%5C%5C%0A%26%3D%5Ccfrac%7B1%7D%7B2%5E%7B%7C%5Cmathcal%7BX%7D%7C%7D%7D%5Csum%7B%5Cboldsymbol%7Bx%7D%5Cin%5Cmathcal%7BX%7D-X%7DP%28%5Cboldsymbol%7Bx%7D%29%20%5CsumhP%28h%5Cvert%20X%2C%5Cmathfrak%7BL%7D_a%29%5Ccfrac%7B1%7D%7B2%7D2%5E%7B%5Cvert%20%5Cmathcal%7BX%7D%20%5Cvert%7D%20%5C%5C%0A%26%3D%5Ccfrac%7B1%7D%7B2%7D%5Csum%7B%5Cboldsymbol%7Bx%7D%5Cin%5Cmathcal%7BX%7D-X%7DP%28%5Cboldsymbol%7Bx%7D%29%20%5CsumhP%28h%5Cvert%20X%2C%5Cmathfrak%7BL%7D_a%29%20%5C%5C%0A%26%3D%5Ccfrac%7B1%7D%7B2%7D%5Csum%7B%5Cboldsymbol%7Bx%7D%5Cin%5Cmathcal%7BX%7D-X%7DP%28%5Cboldsymbol%7Bx%7D%29%20%5Ccdot%201%5C%5C%0A%5Cend%7Baligned%7D%0A)

第2行到第3行：由于是二分类问题，所以对于任意的 $基础理论 - 图55$ ，会有一半的 $基础理论 - 图56$ 将其分错，一半的 $基础理论 - 图57$ 将其分对。因此 $基础理论 - 图58$ %5Cneq%20f(%5Cboldsymbol%7Bx%7D))%3D%5Ccfrac%7B1%7D%7B2%7D2%5E%7B%5Cvert%20%5Cmathcal%7BX%7D%20%5Cvert%7D#card=math&code=%5Csum_f%5Cmathbb%7BI%7D%28h%28%5Cboldsymbol%7Bx%7D%29%5Cneq%20f%28%5Cboldsymbol%7Bx%7D%29%29%3D%5Ccfrac%7B1%7D%7B2%7D2%5E%7B%5Cvert%20%5Cmathcal%7BX%7D%20%5Cvert%7D)

那么对于任意两个学习算法 $基础理论 - 图59$ ，我们都有：

$基础理论 - 图60$ %20%7C%20X%2C%20f%2C%5Cmathfrak%7BL%7D%7Ba%7D%5Cright%5D%5Cright%5D%3D%5Cmathbb%7BE%7D%7Bf%7D%5Cleft%20%5B%5Cmathbb%7BE%7D%5Cleft%5B%5Cmathbb%7BI%7D(h%20%5Cneq%20f)%20%7C%20X%2C%20f%2C%5Cmathfrak%7BL%7D%7Bb%7D%5Cright%5D%5Cright%5D%0A#card=math&code=%5Cmathbb%7BE%7D%7Bf%7D%5Cleft%20%5B%5Cmathbb%7BE%7D%5Cleft%5B%5Cmathbb%7BI%7D%28h%20%5Cneq%20f%29%20%7C%20X%2C%20f%2C%5Cmathfrak%7BL%7D%7Ba%7D%5Cright%5D%5Cright%5D%3D%5Cmathbb%7BE%7D%7Bf%7D%5Cleft%20%5B%5Cmathbb%7BE%7D%5Cleft%5B%5Cmathbb%7BI%7D%28h%20%5Cneq%20f%29%20%7C%20X%2C%20f%2C%5Cmathfrak%7BL%7D_%7Bb%7D%5Cright%5D%5Cright%5D%0A)

也就是说，在这个问题中，无论哪个学习算法，其总误差的期望是相等的！

这也就是NFL定理的核心观点：

:::info 对于任意两个学习算法 $基础理论 - 图61$ ，算法 $基础理论 - 图62$ 不可能在所有问题上都比算法 $基础理论 - 图63$ 强。 :::