34. 如何定义人类水平表现

假设你正在研究一种医疗影像系统，该系统能够自动根据X射线图像进行诊断。下列的哪个误差率能够作为人类水平表现基准呢？

在这种情况下，我会使用 2% 代表人类性能表现作为我们的最优误差率。同时，你还可以将 2% 设置为期望性能水平，因为在上一节“为什么我们要比较人类表现水平”中所提到的三个原因在此都适用：

能够轻松地获取人类标签数据：你可以让医生小组为您提供数据标签，误差率只有 2%。
能够借鉴人类直觉来进行误差分析：通过与医生小组讨论图像，你可以借鉴他们的专业直觉。
能够利用人类水平表现来估计最佳误差率并设置好“期望误差率”：使用 2% 来作为我们对最优误差率的估计是合理的。在本例中，最优误差率只可能比 2% 更低而不会更高，因为这是专业的医生团队所能做到的最好的表现了（代表了人类最高水平）。相反，使用 5% 和 10% 来作为对最优误差率的估计的话是不合理的，因为我们知道这些估计值偏高了（人类能做的更好）。

如果您的系统目前有 40％的错误，那么纠结于使用初级医生（10% 的误差）还是一个有经验的医生（5% 的误差）来标记数据和提供直觉并不是那么重要。但是如果你的系统误差已经优化到 10% 了，那么将人类水平参考定义为 2% 将为你的系统优化带来更有用的帮助。