对模型的评估过程中,最大的挑战是,每个应用场景都是不同的。我们无法为分类问题、回归问题或者可能遇到的其他任何问题提供单一且“正确”的评估指标。尽管如此,在对模型进行评估的过程中存在很多共同的主题和争论点,而对于解决这些问题,也存在一些共同的技术和框架。我们会讨论一些关于分类、实例评分(例如根据消费者相应的可能性对消费者进行排序)和类概率估计等任务的一些评估框架和度量指标

框架一:期望值

要计算模型的总体期望值,必须明确决策的成本和收益。如果能做到这一点,那么数据科学家就可以计算出每个模型中的每个实例的期望成本,并选择期望成本最低或利润最大的模型。

1. 准确率

如何评估一个模型 - 图1
准确率是一项在数据挖掘中很常见的评估指标,它可以用单一的数字来评估分类器的性能,而且很容易测量。但是它过于简单,会导致一些常见的问题(Provost, Fawcett & Kohavi, 1998)。
以下是几个简单的例子:

  1. 随着样本偏度(样本类别分布不均衡的程度)增加,基于准确率的评估方法就会逐渐失效。
  2. 它不区分假阳性错误和假阴性错误,认为他们同样重要,这不适用与真实场景(如,医学上识别癌症),有的时候由于成本收益的不均衡,会导致两种错误的重要性不一样。我们应该仔细评估分类器所做的每个决策的成本收益,他们结合起来即期望利润(或期望成本、期望收益)。

    2. 混淆矩阵

    两个概念:类混淆和混淆矩阵,其中后者是一种列联表。混淆矩阵可以将分类器做出的决策区分开,明确地展示出一个类别是如何与另一个类别混淆的。
p n
Y 真正 假正(假阳)
N 假负(假阴) 真负

表 一个如何评估一个模型 - 图2的混淆矩阵,它显示了模型正确的预测(主对角线)和错误的预测(次对角线)
混淆矩阵可以较好地识别出不同的决策结果,通过与不同的判别思维结合,可以形成很有用的判别指标。其中,期望值就是一个很好的判别指标。

3. 期望值

期望值的计算过程提供了一个框架,而该框架对于如何思考数据分析问题非常有用。具体地说,它将数据分析思维分解为三个部分:问题的结构、可从数据中提取的分析要素和需要从其他来源获取的分析要素(例如商业知识和专业领域的知识)。
在计算期望值的时候,某种情况下的各种可能结果首先被列举出来。而期望值就是不同结果的加权平均值,其中给予每个结果的权重则是它发生的概率。
公式
如何评估一个模型 - 图3
每个如何评估一个模型 - 图4都是一个可能的决策结果,如何评估一个模型 - 图5是其发生的概率,而如何评估一个模型 - 图6是其值。概率值可以从数据中获得,而其值一般为商业价值,这需要从其他来源获得。
期望值的计算为分析提供了一个知道框架,具体来说,我们要计算面向消费者x进行目标市场营销的期望收益(或成本):
如何评估一个模型 - 图7
其中,如何评估一个模型 - 图8是消费者响应后我们获得的价值,如何评估一个模型 - 图9是消费者未响应时我们获得的价值。假设前者为99美元,后者为-1美元,所以最后我们要根据这个期望值去确定是否要向该消费者提供促销优惠。显然,我们是希望盈利的,所以公式变为:
如何评估一个模型 - 图10
对公式稍作变换,就会得到一个决策规则:仅当消费者x满足以下条件时,对其提供特殊优惠。
如何评估一个模型 - 图11
如何评估一个模型 - 图12
所以,只要估计的响应概率大于1%,我们就应该把消费者认定为可能响应用户。

3.1 用期望值规范分类器的评估

我们可以用期望值框架来确定每个模型的最佳决策,然后通过不同的方式用期望值来比较模型。

  1. 错误率

在计算实际问题的期望值时,分析师常会面临:这些概率来自于哪里?当你在测试集上验证模型的时候,答案就很明显了:这些(错误决策和正确决策的)概率可以通过在混淆矩阵中统计决策的正确率和错误率来估计。我们通过用每个计数除以样本总数来进行转化:
如何评估一个模型 - 图13
其中,如何评估一个模型 - 图14为混淆矩阵的每个单元包含不同决策所对应的组合(预测的,实际的)的计数。

  1. 成本和收益

尽管我们可以从数据中估计概率,但无法估计成本和收益,我们会通过分析特定业务问题中决策导致的后果来确定成本和收益的值。给定成本和收益矩阵,将它与概率矩阵相乘,其结果之和就是总的期望利润。结果如下:
如何评估一个模型 - 图15
计算期望利润的一种常见方式是分解除每个类别的概率,通常称为类的先验概率。类的先验概率,如何评估一个模型 - 图16如何评估一个模型 - 图17,分别表示了出现正向结果和负向结果的可能性。把这些因素都考虑在内,我们可以把类别不平衡的影响与模型的基本预测能力区分开来。
基本概率规则是:
如何评估一个模型 - 图18
这表明两个事件同时发生的概率等于其中一个事件发生的概率乘以另一个时间在已知第一个时间发生的条件下的发生概率。因此,期望收益的最终公式如下:
如何评估一个模型 - 图19
公式的第一部分对应了正向实例的期望收益,另一部分对应了负向实例的期望收益。
在计算成本和收益矩阵的时候常见的两个陷阱:

  • 保持成本收益矩阵中符号的一致性非常重要。
  • 避免“重复计算”:增加收益的同时也减少了成本(反之亦然),而比较有效的检验方式是计算因为决策改进而带来的收益提升。

    3.2 其他评估指标

    我们分别用如何评估一个模型 - 图20如何评估一个模型 - 图21来表示真阳性、假阳性、真阴性和假阴性,然后用这些单元来计算各种评估指标。其中比较常用的有精确度和召回率,它们在文本分类和信息检索的场景中尤其常用,召回率与真阳性率相同。

    公式一

    如何评估一个模型 - 图22

    公式二

    如何评估一个模型 - 图23

    公式三、四

    统计学、模式识别和流行病学等许多领域的从业者都会用到分类器的敏感性和特异性:
    如何评估一个模型 - 图24
    如何评估一个模型 - 图25
    还有阳性预测值,它与精确度相同。

    4. 评估、基线性能以及对数据投资的意义

    仔细考虑什么才是合适的模型性能的比较基线是很重要的,那么什么是合适的比较基线呢?答案当然取决于实际应用,提出合适的基线是数据挖掘流程中业务理解环节的一项重要任务,但也有一些原则可以参考:

  • 对于分类任务而言,一条好的基线必须是一个大样本分类器,即一个总是选择训练数据集中的多数类的原始分类器。

  • 对于回归任务而言,使用总体的均值(通常是平均值或中位数)作为预测值是一个比较好的基线。
  • 以上都是简单模型,此外基于行业知识或“已知经验”来构建简单且低成本的模型以供比较也是非常有用的。

框架二:ROC曲线

期望值利用模型分配的分数来为每个情形做决策,而另一种决策策略是按分数对不同情形排序,然后按照业务逻辑对排序靠前的几种情形采取适当的措施。
只选择前几种情形的原因很多,原因之一是模型给出的分数虽然能够估计每种情形属于某类的可能性大小,对各种情形进行排序,但这不是真实概率。某些原因可能导致我们无法通过分类器得到准确的概率估计,比如在目标市场营销中,当获取不到足够的有代表性训练实例时,这种情况就会发生。