34. 如何定义人类水平表现

假设你正在研究一种医疗影像系统,该系统能够自动根据X射线图像进行诊断。下列的哪个误差率能够作为人类水平表现基准呢?

  • 除了一些基本的医学训练之外没有其他专业医学背景的志愿者在这项任务中能够达到 15% 的误差;
  • 初级医生的误差是 10%;
  • 一位有经验的医生的误差是 5%;
  • 通过讨论,一个由医生组成的小组的误差是 2%。

在这种情况下,我会使用 2% 代表人类性能表现作为我们的最优误差率。同时,你还可以将 2% 设置为期望性能水平,因为在上一节“为什么我们要比较人类表现水平”中所提到的三个原因在此都适用:

  1. 能够轻松地获取人类标签数据:你可以让医生小组为您提供数据标签,误差率只有 2%。
  2. 能够借鉴人类直觉来进行误差分析:通过与医生小组讨论图像,你可以借鉴他们的专业直觉。
  3. 能够利用人类水平表现来估计最佳误差率并设置好“期望误差率”:使用 2% 来作为我们对最优误差率的估计是合理的。在本例中,最优误差率只可能比 2% 更低而不会更高,因为这是专业的医生团队所能做到的最好的表现了(代表了人类最高水平)。相反,使用 5% 和 10% 来作为对最优误差率的估计的话是不合理的,因为我们知道这些估计值偏高了(人类能做的更好)。

如果您的系统目前有 40% 的错误,那么纠结于使用初级医生(10% 的误差)还是一个有经验的医生(5% 的误差)来标记数据和提供直觉并不是那么重要。但是如果你的系统误差已经优化到 10% 了,那么将人类水平参考定义为 2% 将为你的系统优化带来更有用的帮助。