1. 模型介绍
    A / B 测试,是指在同一时间段,给同类用户分别展示优化前和优化后的方案,并通过数据分析,判断是否符合预期的一种试验方法。
    广告界有一句经典的名言:

    我知道在广告上的投资有一半是无用的,但问题是我不知道是哪一半。
    这句话在传统的广告行业一直有效。
    但是,随着互联网的发展,人们能够快速获取大量的用户行为数据,从而能够准确地衡量广告的效果,减少无效广告的投放,这背后的关键技术就是 A / B 测试模型。
    互联网时代,细节决定成败。
    谷歌、脸书、字节跳动等知名互联网公司,都在大量应用 A / B 测试,无论是颜色的调整,还是位置的摆放,或者是文案的设计,很多细节都会通过 A / B 测试来进行验证,从而实现产品的持续优化。
    2. 应用举例

    A / B 测试在互联网、医疗、金融等领域都有着广泛的应用,以 APP 设计方案的选择为例:
    首先,要明确判断好坏的指标是什么,例如转化率高代表好。

    其次,要合理地分割流量,保证 A 组和 B 组的用户特征基本一致,并且都具有代表性,能够代表总体用户特征。
    如果总体流量比较大,为了减少测试可能造成的损失,在刚开始测试的时候,建议先小范围尝试,例如拿 2% 的流量,其中 1% 的用户作为 A 组,另外 1% 的用户作为 B 组。
    当流量足够大时,还可以根据用户的特征(如年龄、性别等)切分出更细致的用户群体分别进行 A / B 测试,尽量排除其他因素的互相干扰。

    然后,通过数据分析,对比测试结果,并做显著性检验。
    你可以利用网上的AB测试结果分析工具,输入访问数和转化数,就能自动计算出转化率和统计显著性数值。
    9、A / B 测试模型  - key - 图1
    假如检验结果不显著,那么有可能是因为样本量不足,建议加大测试的比例,以期得到更加明确的测试结果,这样才能指导下一步的决策行动。

    最后,在大胆假设的基础上,一定要小心求证,考虑是否需要进行灰度发布,让一部分用户先试用新的版本,避免出现辛普森悖论那样的情形,否则可能造成不良影响。

    辛普森悖论,是英国统计学家辛普森于 1951 年提出来的,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
    举个例子:

    • A 组有 1000 个男性和 200 个女性,转化率分别为 10% 和 75%;

    • B 组有 200 个男性和 1000 个女性,转化率分别为 5% 和 50%;

    9、A / B 测试模型  - key - 图2
    如果把男性和女性分开来看,A 组转化率分别都明显高于 B 组,10% 高于 5%,75% 高于 50%。

    但是,如果把男性和女性合并到一起,A 组转化率却只有 20.8%,还不到 B 组转化率 42.5% 的一半。

    所以,我们在做 A / B 测试的过程中,需要特别注意分组的权重,消除分组基数差异所造成的影响,让测试的样本能够真实反映整体的分布。

    因为量与质不是等价的,然而由于量更加容易测量,所以人们总是习惯用量来评定好坏,但结果却可能是没有抓住重点。

    从辛普森悖论中,我们可以得到一点启示:甲做了很多不重要的小事,而乙做了少量非常重要的大事,最终甲取得的成就可能会远不如乙。
    这也是为什么我们要牢记二八法则,用 20% 的高效时间,重点去做好那些能产生 80% 效果的重要的事。
    最后的话
    应用 A / B 测试模型,也要遵循要事优先的原则,运用全局思维,优先去做那些对业务影响比较大的测试,而不是不分轻重缓急,眉毛胡子一把抓。
    我们从小经历过各种各样的考试,大致都有这样的体会:从 0 分到 90 分,从 90 分到 99 分,再从 99 分到 100 分,这三者所花的时间是差不多的。分数越高,难度越大,效率越低。
    在计算机软件开发领域,有一种「九九定律」,也称为 90-90 法则
    前 90% 的代码要花费 90% 的开发时间,剩余的 10% 的代码要再花费 90% 的开发时间。
    在做 A / B 测试之前,我们可以先花少量的时间,快速定位正确的方向,先把细枝末节放一放(后面如果有必要再做优化也不迟),这样就能实现快速迭代,形成良性循环,从而获得更好的结果。

    数学有超越现实的美,而现实中人类的行为和想法太过复杂,就像投资经常失败的牛顿所说的:
    我可以预测天体的运动,却无法预测人类的疯狂。
    在用数据化解难题的过程中,一种分析思维模型的应用,可以增进自己对另一种模型的理解,这是我学习总结 100 种分析思维模型的额外收获。