版本 更新内容 时间 操作人
V1 翻译了书中关于AB测试原则的内容 2020-10-14 呆呆

Overall Evaluation Criterion OEC 总体评价标准

总体评价标准(OEC):实验目标的定量度量。 例如,OEC可能是每个用户的活动天数,指示实验期间的天数用户是活跃的(即,他们访问并采取了一些行动)。 在统计中,这通常被称为响应或因变量。 实验可以有多个目标,分析可以使用平衡计分卡方法。

原则1:

本组织希望作出数据驱动的决定,并已正式确定一个**OEC

你很少会听到某个组织的负责人说他们不想成为数据驱动者。 但是,想衡量新功能是否有效,带来多大提升是有成本的,尤其你希望结果靠谱一点。一般,进展不会像最初设想的那样乐观。 许多组织不能保证确定和衡量进展所需的资源。
如果真的想要数据驱动,组织应该定义一个OEC,它可以很容易地在相对较短的时间内(例如,一到两周)测量)。 大公司可能会在不同的领域进行多个OEC或关键指标,并同时检测他们的效果。 困难的部分是在短期内找到可测量的指标,该指标需要足够敏感,以显示差异,并预测长期目标。 例如,“利润”不是一个好的OEC,因为短期效应(例如提高价格)可以增加短期利润,但从长远来看可能会损害它。 客户终身价值是一种战略 强大的OEC 我们再怎么强调也不为过,就一个好的OEC达成一致的重要性,公司层面应该是非常重视的。

原则2:

本组织愿意投资于基础设施和测试,以运行受控实验,并确保其结果是可信的

对于互联网公司来说,是可以通过程序来实现实验所需要的必要条件。可以有效的随机化用户,并收集数据,而且代码的修改是相对容易的。即便网站流量较小,也可以进行一定的统计测试。
在其他领域,可能很难或不可能可靠地运行受控实验。 在医学领域进行控制实验所需的一些干预措施可能是不道德的或非法的。 硬件设备可能有很长的制造准备时间,而且修改是困难的,因此与用户的受控实验很少在新的硬件设备(例如,新的移动电话)上运行)。 在这里当无法运行受控实验时,可能需要其他技术,如辅助技术。
如果可以运行受控实验,那么确保它们的可信度是很重要的。 当运行在线实验时,获取数据是容易的;获得你可以信任的数据是困难的。

宗旨3:

需要认识到,大多数评估得不到显著的效果

进行AB测试是因为团队相信它们是有用的,但在许多领域,大多数想法都无法改进关键指标。 在微软测试的想法中,只有三分之一改进了它们的指标。 在Bing和Google等优化良好的领域更难找到成功,其中一些衡量标准的成功率约为10-20%(Manzi,2012年).

Slack的产品和生命周期总监Fareed Mosavat在推特上说,根据Slack的所有经验,只有大约30%的货币化实验显示出积极的结果。

Avinash Kaushik在他的实验和测试入门书(Kaushik,2006年)中写道,“80%的时候你/我们对客户想要的东西是错误的。”Mike Moran(Moran,2007,240)写道,Netflix公司他们90%的努力是错误的。 Quicken贷款公司的Regis Hadiaris写道:“在过去的五年里,我一直在做测试,但我对结果的猜测和一个大联盟一样正确赛球运动员在击球。 没错,我已经做了5年了,我只能“猜测”大约33%的时间的测试结果!“(Moran,2008年)。 丹·麦克金利在埃齐(麦克金利 他写道:“几乎每件事都失败了”,对于功能,他写道:“意识到他们在第一次尝试中成功是多么罕见,这令人感到羞愧。 我强烈怀疑这种经历是统一的 范萨尔,但它并不是普遍公认或公认的。“最后,科林·麦克法兰在“实验”一书中写道! (McFarland,2012,20)“无论你认为这是多么不容易的事情,都有多少麻烦 你已经做过了,或者有多少竞争对手正在做,有时,比你想象的更频繁,实验想法根本就失败了。”

并不是每个领域都有如此糟糕的统计数据,但大多数在面向客户的网站和应用程序中进行过控制实验的人都经历了这种谦卑的现实:我们很难评估出想法是有价值的。