让我们来研究一下Netflix。它是一个视频内容平台。我们想一下,他们在线A/B测试的主要KPI可能是什么?参与度(Engagement),例如观看分钟,观看视频数目,或观看超过5分钟的视频的用户比例?嗯,事实证明,他们的完整消费者科学实验(full consumer science experiments)A/B测试使用的主要指标(非初始,体验质量)不是参与度,而是留存:即在免费试用月结束后以及随后的几个月内,是否有更好的留存水平。我们的假设是,如果人们足够欣然地进行续订,他们可能参与到产品中并在产品中找到价值。留存是任何订阅服务业务的核心指标之一,这是有道理的。但目前尚不清楚这些高级指标在此类A/B测试中是否常见。测试往往侧重于更低级别的、特定的、行为层面的、和可操作的指标:点击,分享,观看,发布或点赞(like),而不是收入(来自购买,续订或注册)。哪些指标以及在什么情况是更应该被优化的?

北极星(North Star)与路标(SP, Sign Post)

“留存”与“观看视频”等指标之间存在质的差异。一种观点是,它们是战略指标与战术指标。您可以直接推动用户去观看视频,这是一种战术指标,但通常更难直接推动留存,这是一项战略指标,除了与该行动密切相关的情况(例如优化结帐流程,定价和注册页面)。Michael Korcuska喜欢称他们为“北极星”(战略)与“路标”(战术)指标。

以下是针对不同商业模式的北极星(“NS”)与路标(“SP”)指标的一些示例:

商业模式 北极星(NS) 路标(SP)
电子商务 订单量 加入购物车
酒店 营收 预订量
广告技术 营收或点击量 广告浏览量
汽车经销商 营收或订单量 试驾量
共同办公 营收,注册量,或者租用率 演出/活动量

上面表格是各种商业模式的北极星指标与路标指标的示例。例如,在酒店中,通过大幅折扣可以很容易地影响标志性指标和推动预订。然而,增加收入要困难得多,需要推动预订,还需要客户满意度,价格,客户忠诚度等。

一个有趣的例子是具有非常明确的实现/未实现目标的订阅服务:例如,在正规的长期约会应用程序中,例如Match或eHarmony(而不是“约炮”网站),当成员找到生活伴侣时(理论上)不再需要这项服务。因此,约会量(SP)带来的收入(NS)是有意义的,但约会量(SP)带来的成功找到长期伴侣的会员(NS)同样有意义,如果会员成功找到合适伴侣和积极的口碑(高净推荐值, high net promoter score)可以推动新用户增长。

北极星指标作为A/B测试KPI的意义

对于Netflix,这样的北极星留存指标意味着什么?首先,这意味着他们的测试时间很长:至少一个月,或者更确切地说,一个结算周期,有时是两个或三个。其次,这意味着他们有足够的流量来检测留存率的显着差异。基准留存率越低,能够检测给定效应量的差异所需的样本量越大。第三,这意味着他们已足够的仪表化(sufficient instrumentation),有良好的实验设计和分析技能(analytical chops),以便能够弄清楚什么因素驱动留存的提升(如果有多个并发测试或混淆效应)。驱动留存显着提升的因素永远不应该是一个谜。

有必要反过去想一想(flipping this around for a second)。如果你的流量(low traffic)很低,你可能做什么都没用。无论您采用哪种指标,都需要进行长时间的A/B测试才能获得足够的样本量。如果您有很长的结算周期或其他长期或滞后的指标,这也没有用。例如,近年来,WeWork一直在发展他们的企业客户。虽然较小,规避风险的创业公司更喜欢每月承诺(commitment)的灵活性,但WeWork的兴趣在于激励企业客户签订更长的合同。12或24个月的合约的留存并不能很好地作为优化指标。因为它的滞后时间太长了。

然而,通过关注取消率(cancellations rates),而不是留存本身,我们实际上可以优化,包括承诺(比如90天初始承诺)比合理的A/B测试期更长的情况,比如30天测试。怎么做呢?

处理承诺超过预期的A/B测试期

从概念上讲,当个别初始承诺较长时(例如60天和90天),可以在30天的测试窗口中检查取消率。它只需要一些好的实验设计。

想象一下,成员只能在月底取消,我们选择测试日期结束(11月30日),然后假设我们在此之前3周开始测试,比如说11月7日。这7天(11月1日至7日)给予任何推迟付款的会员从10月30日起续约。首先,剔除任何首次可能取消日期在测试结束后的成员。也就是说,不要包括那些刚刚签署了90天承诺的人; 他们永远不会在测试期内取消。其次,使用分层抽样确保处理组和控制组用户随机分配至承诺时长和注册月份。通过这样的设计,可以测量处理组和控制组之间的取消率,并且深入研究承诺时长与初始注册月份的组间差异。

北极星指标或者路标指标:应该优化谁? - 图1

路标(SP)的意义

在电子商务网站结账流程中,几乎肯定不会优化添加到购物车,但可能会优化购买行为。这就是你最终想要在那个流程中推动的东西。这背后有一些原因:

1. 错误的激励(perverse incentives)

如何搭一个舞台?把椅子拿走就行了!

通过删除其他功能,可能很容易鼓励用户添加购物篮(但不一定导致消费)。例如,亚马逊“最近浏览过”和“稍后保存”,用户可以跟踪他们最近查看或与之交互的内容。取消这些功能,您可能会看到人们使用添加到购物车作为保留区域,但可能没有强烈的购买意图。显然,你不希望添加购物车有任何阻力,因为这将阻止结账;但是优化添加到购物车并不一定意味着优化购买(见下图不对称的情况)。

指标 指标提升 指标降低
购买 成功 失败
添加购物车 不一定具有商业意义 失败

购买行为是一种北极星指标,具有明确而诚实的成功和失败信号。添加到购物车,路标指标,具有不对称性:增加并不一定有助于建立底线(bottom line)。

另一个例子:当你真的想要增加收入时,很容易鼓励用户注册。如何轻松地解决:给每个人提供优惠券,折扣或其他奖励以便注册。这并不意味着新注册的用户将成功转化成收入提升。(这与上面的酒店情况相同:您可以通过大量折扣和促销来推动预订但不会增加收入。)此外,如果存在会员成本或服务成本,例如通过提前提供酒店预订或航空公司座位等服务,最终整个活动的成本高于不试图增加注册量。

因此,你可能关注那些团队可以直接控制和驱动(获得奖励)的行为而导致错误(没有什么商业意义)的用户行为。Kerr提供了许多“犯规”(fouled up)的奖励的例子

2. 可能的解决方案

想象一下,一个团队的责任,访问站点(visitor site)团队,是为了增加访问站点的流量。第二个,更下游的团队的责任是注册,即注册团队。

如果您将收入指标(如转化)作为两个团队要进行优化的指标,可能会发生什么?互相指责(甩锅):网站访问团队会抱怨转化的任何减少都不是他们的错,这是由于注册团队做出的糟糕决定和变更导致的。相反,下游注册团队会抱怨由于上游访问网站测试带来了低质量的潜在客户。因此,仅仅依靠这一个指标起不到什么作用。

好的,如果您将负责访问网站团队的指标设为他们可以控制的内容:#visitor(访问量)。可能会发生的是,他们会更关注数量而不是质量。然后,注册团队会变得脾气暴躁,因为他们无法转换这些潜在客户(leads)。因此,您不能仅让这个上游团队只对他们可以直接控制的指标负责。

这是一个可能的解决方案:

如果您能够仔细控制和协调两个团队之间的A/B测试呢?

假设:

  • 访问网站有两种体验:当前状态(A_访问者)和一些新体验,如高容量,低质量(B_访问者)。
  • 这两种访客流向下注册体验。
  • 注册团队有两个体验:当前状态(A_注册)和其他一些经验(B_注册)。

也就是说,这是典型的两个A/B测试情况,按顺序连接在一起。

比较 A_visitor → A_signup(AA)流B_visitor →A_signup(BA)流 之间的转换结果将告诉您访问团队是否对业务产生最终影响。也就是说,即使他们只是直接控制量来注册,而不是下游发生的事情,你可以在注册时评估它们,只要A_signupA_visitorB_visitor之间保持不变即可。这涵盖了访客团队。对于注册团队来说,它更直接:比较A_signupB_signup将告诉您注册团队是否对业务产生影响。

北极星指标或者路标指标:应该优化谁? - 图2

在访问者网站中,访问者团队只能直接控制访问者的数量(和质量)。他们既可以解释访问量的标志度量标准负责,还可以解释下游和北极星度量标准,如转化。只要通过比较红色(AA)和蓝色(BA)路径来控制A/B测试就可以了。

3. 错误优化

当关注路标(SP)时,无法保证您正在优化的操作会产生预期效果或正确引导。由于北极星将成为体验或商业模式的核心,因此北极星度量标准可能比标志性度量标准更正确。

  • 当可口可乐公司测试新的可口可乐(20世纪80年代)[Webber,2006]时,他们使用sip测试进行了大量的用户测试。对新可乐的喜爱程度超过了原有的可口可乐产品和百事可乐。然而当他们推出该产品时,却是一个巨大的失败。客户认为它太甜和抓狂(clawing)。为什么?我们容忍啜饮的甜食比吞咽更甜。啜饮测试给出了非测试条件下人们如何消费产品的错误信号。这是一个错误的指标:它针对sips而不是销售进行了优化。
  • 另一个例子[这是来自Elizabeth Churchill在RecSys 2018的主题演讲]:雅虎已经存在了很长时间,在视频上网之前。他们早期的心态是广告收入和点击量。当视频首次出现时,他们针对点击进行了优化。这就是该组织习惯做的事情。他们花了一段时间才意识到,当人们观看视频是,他们正在观看内容而不是做其他活动,例如点击。参与度与点击量呈负相关。

4. 近视(myopia)/短视

对于一个过分关注路标(SP)指标的团队而言,可能意味着他们错过了退回去并识别和应对更大机会的更大视角。例如,在社交网络中,人们可能更愿意关注具有个人资料图片的其他成员(与没有图片的人相比。也许是空白,默认个人资料看起来丰富,不正式,不值得关注)。但是,添加推荐“关注者”功能可能会比添加照片对后续行为产生更大的影响。你不想错过寻找和探索这些机会。更高级别的指标至少应该向团队表明所有途径都是开放的,值得考虑。

当然,这种潜在可能性在很大程度上取决于团队结构及其角色和责任。如果团队只控制应用程序的一小部分,较小的体验,例如个人资料页面,那么这是他们的世界,并且其他机会可能超出他们的控制范围。因此,具有更高层次观点和责任的人(高级管理人员,副总裁,决策者,PM等)有责任评估全部范围的潜在驱动因素。

理想情况下,您将让这些不同的团队全力开展他们可以控制的事情。但是,如果这些不同的方法在单一团队的控制之内,那么就需要确保他们能够优化他们控制资源的方式。“增加具有照片的个人资料用户量”作为给定的KPI反映了某种特定策略。特别是如果在定性或定性研究后事后完成的话。要求团队优化北极星指标可以让它更加灵活开放。


总之,路标指标有明确的位置。您始终需要了解各种驱动因素,并且它们往往是更直接的行为指标,人们可以衡量,理解并更容易地提出功能增强。但是,它们可能会产生误导:您可能会成功推动该指标而不会影响业务的根本。如果北极星指标朝着正确的方向发展,那么这项业务将会蓬勃发展。他们更难控制和测试,但并非不可能,但如果可以这样做,团队就可以看到并衡量对业务的直接影响。正如Galileo Galilei所说:“度量可度量的东西,并使不可度量的东西可度量。”