原文来源:https://conversionxl.com
原文作者:Peep Laja

A/B 测试是一项很有趣的测试内容,使用者可以通过优质的工具去完成产品中的 A/B 测试。但其实,A/B 测试并不仅仅是建立一个测试,很多公司在使用 A/B 测试时都存在一定的误区,都在不经意间浪费着时间和金钱且不自知。
下面,本文将为大家梳理一些运用A/B 测试时常见的误区:

一、太早停止A/B 测试

如果样本量足够大,统计显著性是版本 A 优于版本 B 的最好证据,50% 的统计显著性代表一种随机的结果。如果你只要求有 50% 的统计显著性,那么你可能要考虑离职了,因为其实这个数字达到 75% 也不能说明什么。
任何一个经验丰富的测试人员都有过这样的经历,你通过 A/B 测试去检测你的产品功能,最终将一个置信度达到 80% 的产品推向各大市场,但最终发现,市场却并不买账。于是你想,那下次把数字达到90% 怎么样?这样就会很好了吧?其实比达到 90% 更重要的是,你要找到其中的真相。
真相>胜利
作为一个专业的职场人士,你的工作就是找出真相。你必须先把自我放在一边,执着于你的假设或设计是人之常情,如果当你的假设没有出现显著的差异性时,这可能会对你造成很严重的打击。真理高于一切,否则一切都失去了意义。
这里有一个常见的场景,即使对于经常进行 A/B 测试的公司也是如此,公司进行一个又一个的测试,持续了 12 个月,好不容易挑选出“获胜者”,然后将它们推出市场。结果一年后发现,他们网站的转化率和刚开始时一样……
为什么?基本是因为测试停止得太早或样本量太小。这里有一个关于何时停止 A/B 测试解释,简而言之需要满足这三个条件,才能说明测试已经完成:

  1. 足够的样本大小。实验要有足够的被试参与,你需要为你的 A/B 测试预先估算出足够的样本量。
  2. 要运行多个销售周期(通常为 2-4 周)。如果你只是在几天内就停止测试(或者在达到所需的样本量之后就停止),那么你获得的这个样本结果,并不具有代表性。
  3. 统计学的显著性至少要达到 95%(p≤0.05)。值得注意的是,p 值没有办法告诉我们 B 比 A 的方案好。

这里有一个经典的例子来说明我的观点,下表为开始测试两天后的结果:
AB Test-十二大误区 - 图1
图 1. 图片来源于网络
我构建的新版本损失惨重,我构建的版本并没有太大的优势,而我的客户也已经开始准备停用这个方案。但是,由于样本量太小(每次变化只有 100 多次访问),通过我的坚持不懈,这是 10 天后的结果:
AB Test-十二大误区 - 图2
图 2. 图片来源于网络
你没看错,我制造的版本现在以 95% 的置信率获胜。
有些A / B测试结束得过早,这就需要我们仔细检查各种数据。而最糟糕的事情就是,因为不准确的数据,让你损失了大量的时间与金钱。
需要多大的样本量?
通过上面的介绍,我们都不希望根据较小的样本量得出结论。理想的状态下,一个好的测试版本最好能发生至少 350-400 次转换数据。但是,这个数字不是定值。我们不要被一个号码困住,因为我们手中的是科学,而不是魔术。
所以,你一定要提前估算出测试所需要的样本量。那么即使这样做了,但置信度还是低于 95% 怎么办?那么可以从细分领域下手,但你仍需要为每个测试的细节提供足够的样本量。无论如何,你都需要不断修改你的假设并进行新的测试。

二、测试的单位不是“周”

假设你有一个高流量网站,你在三天内实现了 98% 的置信度,并且每次都发生了至少 350 次的转换数据。
这样能算完成了测试吗?不,我们需要排除周期性因素并测试整整一周。如果你从上周一开始测试,那么这个测试需要在下周一停止。
为什么?因为你的转化率可能会因“今天是星期几”而有很大差异。如果你一次不测试整整一周,那么你的结果就会出现偏差。所以,你需要以“周”为单位,在你的网站上运行“每日转化次数”的报告,观察到底能产生多少波动。
下面是一个例子:
AB Test-十二大误区 - 图3
图 3. 图片来源于网络
你看到上表中的内容了吗?
星期四的收入比星期六和星期日的总和还多出 2 倍,星期四的转换率几乎是星期六的 2 倍。如果我们没有以“周”为单位进行测试,那么结果将是不准确的,所以,必须开始一次运行七天的测试。如果在这七天内没有出现差异显著的结果,则再运行七天。如果 14 天都没有达到,那么就运行到第 21 天。
多数情况下,你需要至少运行两周的测试(我的个人最低时间是四周,因为两周通常是不准确的),然后,如果你需要延长测试时间,则应用七天规则逐步叠加。
注意外部因素
如果你在双十一等一些购物季获得了良好的测试结果,那么你一定要在购物季结束后再次进行重复的测试。另外,如果你的公司铺设了一些电视广告或者其他大型活动,都可能会影响你的测试结果。你必须要了解你的公司正在做什么,因为外部因素会影响到你的测试结果。

三、没有足够的流量也进行 A/B 测试

如果你每月只能完成一次或两次销售,然后进行测试,结果显示 B 方案比 A 方案的转化率高 15%,这样的结果准确吗?
当然不。许多人都喜欢用 A / B 测试来验证假设,但流量较小的情况下,即使版本 B 的效果再好,也可能需要数月才能达到统计显著性。

不基于假设就进行测试

我喜欢意大利面,但我对意大利面条柔韧度的测试却没多大兴趣,比如将它扔在墙上,看它是否粘住墙壁?
这其实是一种随意的测试想法,而测试这种随机想法需要付出巨大代价,它会浪费你宝贵的时间和流量,所以永远不要那样做。你需要有一个假设。假设的提出要根据有限的证据,这个证据可以通过实验去被证明,并且作为一个新的研究起点。
如果你在没有明确假设的情况下进行 A/B 测试,然后发现 B 方案的转化率高了 15%,可是你从中学到了什么?
什么没有。我们需要了解我们的受众,获得合理的假设,这将有助于我们更好地改进贴合实际的测试。

四、不利用大数据分析平台

测试的平均值往往包含着谎言。如果 A 方案比 B 方案的转化率高出 10%,但也并不能代表全部。你需要将其中的指标再次进行分割测试,去分析其中的各项细分指标。你可以使用一些优质的大数据分析工具,利用各种分析模型,对数据进行细致地分析和处理。
AB Test-十二大误区 - 图4
图 4. 图片来源于神策数据

五、为了不值得的问题进行测试

你测试过用户喜欢什么颜色,对吗?
请赶快停止吧。世界上哪里有最好的颜色,因为颜色始终与视觉层次结构有关。当然,你可以在网上找到有人通过测试颜色从而获得收益,但这些结果很多都是显而易见的,所以,不要把时间浪费在这些测试上。

六、第一次失败就放弃

你设置了一个测试,但它并没有提高转化效率,于是,你就准备在另一个页面上运行测试吗?
没那么快!大多数首次测试都面临着失败的可能性。实事求是地讲,迭代测试不可避免。通过一项测试,从中学习,并改善你的用户体验和你提出来的假设,之后再进行测试,并循环往复,以此类推。
我们曾经研究过一个案例,在同一页面上做了 6 次测试来实现我们的转换目的,这就是现实生活中的测试。所以,你必须让批准测试预算的老板和你的客户知道这一点。
如果期望一次测试会得到想要的结果,那么资金将被浪费,人员也可能将被解雇。所以,运行迭代测试,才是较为可行的方法。

七、虚报的显著性

要知道,统计显著性并不是唯一要注意的结果。我们还需要了解那些错误的测试结果。不耐烦的测试人员希望跳过 A / B 测试并继续进行 A / B / C / D / E / F / G / H 测试。而这,就是一种误区。
不可否认的是,测试的版本越多,误报的可能性就越高。有时候,即使在 95% 的置信水平下,误报的几率仍能达到 88%。

八、利用重复的流量

你已经找到了一种通过同时运行多个测试来“偷工减料”的方法:一个测试在产品页面上,一个测试在购物车页面上,一个测试在主页上(同时测量相同的目标)。它很节省时间,对吗?
但如果你在测试的时候不小心,就很可能会扭曲结果。除非你怀疑测试之间存在强烈的交互,且测试之间的流量有很大的重叠。
如果测试之间存在交互和流量重叠,事情会变得棘手。
如果你想同时在同一个流程中测试多个布局的新版本,例如结帐的三个步骤,你最好还是使用多页面实验或多变量测试来正确测量交互和属性结果。
如果你决定使用重叠流量运行 A / B 测试,请记住流量应始终均匀分配。如果测试产品页面 A 与 B,和结帐页面 C 与 D,请确保来自 B 的流量在 C 和 D 之间的分配是对半的,而不是 2:3 或其他。

九、忽略细微的成果

你的新版本比对照组高出了 4%,但总有人会说“这个比例太小了!我甚至都不愿意实施它。”
但问题是,如果你的网站做的非常好,那么你将无法获得那样大规模的转化提升,而事实上,大规模的转化提升也非常罕见。除非你的网站很垃圾,测试之后很容易获得 50% 以上的转化提升,但即使这样,这种场景也不会持续不断地出现。
大多数测试带来的都是小幅增长,比如 1%、5%、8%等。有时,1% 的提升可能意味着数百万的收入,但重点是:你需要从 12 个月的时间跨度来看待它。
一项测试就只是一项测试,你必须要做很多很多测试。比如你每月将转化率提高 5%,那么 12 个月内的转化率将提高 80%,这是复利,是数学的工作原理。而 80% 将是一个极其壮观的数字。
所以,要学会积累这些小胜利,最后将他们都叠加起来。

十、拒绝垃圾测试

没有测试的每一天都是一种浪费。测试是为了更好的学习,更好的了解你的受众,了解哪些有效,以及有效的原因。
不进行多次测试的话,你就不知道什么是有效的。
虽然要不停地进行测试,但绝不代表你要进行垃圾测试。你需要做适当的研究,准备一个很好的假设,并且不断优化。

十一、意识不到存在的威胁

仅仅因为你有一个不错的样本量,置信度和测试持续时间并不意味着你的测试结果是有效的。因为你的测试往往还具备着以下几个威胁。

工具误差

这是最常见的问题。当测试工具(或仪器)在测试中出现有缺陷的数据时,会对结果产生致命的影响,而这通常是因为网站上的错误代码,所以你需要注意这一点。
设置测试时,请观察并记录的每个目标和对应的数据指标。一旦出现问题,请停止测试,找到并修复问题,然后重新设置数据,重新开始。

历史效应

也可能是外部世界发生了一些事情,导致测试中存在缺陷数据的情况发生。比如你的公司高管爆发了丑闻,或者正巧碰上消费的假日季节等等,外部正在发生的事情都会引起你的变化。

选择偏差

当我们错误的假设流量的某些部分代表流量总体时,就会发生这种情况。
例如,你将促销流量从电子邮件列表发送到你正在运行测试的页面,那么订阅你的列表的人就会比普通访问者更多。但如果认为他们代表总流量,那么就会有选择偏差的情况出现。

错误的代码效应

你测试出了一套提高转化率的方法并将其推向现实,但是,它没有赢得该有的效果。这可能是因为你的这套方法在某些浏览器或设备上显示效果不佳。
每当你提出新方案时,请确保进行质量保证测试,以确保它们在所有浏览器和设备中都可以正确显示。
尾 声:希望你能从这 12 个误区中获得一些思考,在以后的 A/B 测试中,避开这些“坑”。