前言

总结：复杂的大型可用性测试是对资源的浪费。最好的测试结果来源于测试不多于5名用户，并在你能负担的范围内尽可能地进行多次小型可用性测试。

许多人认为，可用性测试很昂贵、很复杂，并且只应被用于那些预算很多、时间宽裕的极少数项目。这是错误的。实际上，复杂的大型可用性测试是在浪费资源。最好的结果往往来源于对不多于5名用户的测试，并且在预算范围内尽可能多的进行小型测试。

在早先的研究中，我和汤姆·兰道尔（Tom Landauer）发现，通过对n个用户进行可用性测试，可以发现的可用性问题总数是：
为什么只要测5名用户 - 图1

其中，N 是设计中存在的所有可用性问题总数，而 L 指对单个用户进行测试时可以发现的可用性问题数的比例。在已经进行的大量研究中，我们发现 L 的平均数值为 31%。如果以 L = 31% 进行绘图，我们可以得到参与测试的用户数 n 与发现的可用性问题百分比之间的关系如下所示：

最令人震惊的事实是：不邀请用户进行测试时，你无法发现任何可用性问题。

当你从单个用户开始收集数据时，你已经开始得到一些收获了：你几乎能够了解整个设计中三分之一的可用性问题。没有数据和一点点数据之间的巨大差别可见一斑。

当你测试第二名用户时，你会发现，该用户做了一些和第一名用户相似的举动，因此你得到的收获可能会有些重复。人们往往是不同的，所以你肯定也会在第二个用户上发现你在观察第一个用户时没有发现的问题。因此第二名用户也帮助我们获得了一些新收获，但不会有第一名用户带来的那么多。

第三名用户可能会表现出许多与第一名或第二名用户相同的行为，有的行为你甚至会观察到三遍。但与此同时，第三名用户也会帮助我们获得一些新的数据，即使没有第一名或第二名用户那么多。

当你观察越来越多的用户时，你得到的会越来越少，因为你会看到相同的事情不停地重复发生。我们并没有多次观察相同现象的必要；而且，在进行测试后，你也一定会非常有动力地回到画板前重新设计产品，来减少可用性问题。

在观察第五名用户使用后，你仅仅是浪费时间——因为你在重复地观察相同的东西，而不是得到新的收获。

一、迭代设计

其实，该曲线清晰地表明：你需要测试至少15名用户来发现设计中所有的可用性问题。那么，我为什么还要推荐与之相比少很多的用户数来进行测试呢？

最关键的原因是，相对于把所有预算一次性投入在单次、大型的用户测试，将预算平均地花在多次小型用户测试是更明智的选择。假设你有充分预算招募15名有代表性的用户，并让他们测试你的设计。真棒！把这个预算分成三份，做三次5人用户测试吧。

进行多次测试的原因是，可用性测试的真正目的是改进设计，而非仅仅是记录设计的问题。在第一次对5名用户进行测试、发现85%左右的可用性问题后，你会需要在新设计中解决这些问题。

在新设计完成后，你需要再次测试。尽管我声称新设计应该「解决」在第一次测试中发现的问题，但实际情况往往是你认为新设计解决了这些问题。但由于没人能做出完美的用户界面，因而没有人能够保证新设计确实解决了这些问题。第二次测试就能够发现，这个解决方案是否奏效。同时，在新设计实行后，也存在着带来新的可用性问题的风险，即使该设计解决了旧版本中的问题。

进一步地，在第二次的5人测试中，我们会发现第一次测试没有发现的15%问题中的绝大多数。（一般来说，还会有2%左右的原始问题未被发现——它们要等到第三次测试才会被发现。）

最终，第二次测试会帮助我们进一步深度了解产品基础架构中的可用性问题，并触及到诸如信息架构、任务流、是否满足用户需求等方面的问题。这些重要的问题在初始研究中往往不会被发现，因为用户会被表层的、界面层次的可用性问题难住，而不能深入地了解该产品。

因此，第二次测试的目的有两个：作为对第一次测试成果的检测，同时也提供更深层面的洞见。第二次研究总是会带来一个新的（但数量更少的）可用性问题列表，从而要求我们再次更新设计。对于第二次更新设计，相同的逻辑也同样适用：不是所有的解决方案都有效；在界面层面上的可用性问题解决后，我们会发现一些深层问题。因此，我们还需要第三次测试。

最终，通过进行3次5人用户测试，产品的用户体验会得到极大的提升；这比直接粗暴地进行一个单次的、大型的15人用户测试要好得多。

二、为什么不仅仅测试一名用户？

你可能会觉得，进行15次对单个用户的测试甚至会比进行3次5人用户测试要更好。因为这个曲线确实表明，我们在对第一个用户进行测试时，得到的收获比对后面任何一名用户进行测试得到的都要多。那么我们为什么还要测更多的人呢？原因有二：

我们很有可能会被单个用户的某些行为「欺骗」——这些行为可能是无意的，或者不具有代表性。甚至仅对3名用户进行测试就可以让我们对用户行为的多样性有更进一步的了解，从而知道哪些是特殊的用户行为，而哪些则更为普遍。
对用户测试的投入-产出分析表明，最优的比例是单次测试3-5名用户，取决于测试的整体情况。计划和执行一次测试会有一些固定成本，而一次测试多名用户则可以稀释这种成本。

三、需要测试更多用户的情况

当你的产品有多个彼此间差异较大的用户群体时，你需要测试更多的用户。「测试5名用户定律」只有在这些用户均以相似的方式使用你的产品时才成立。

举例来说，如果你的网站面向的群体既包括儿童，也包括家长，那么这两个群体在使用你的网站时行为上差别就足以让你对于他们分别测试。同样的道理，如果你的产品旨在帮助采购人员和销售经理进行沟通，你也需要测试这两个群体。

即使你的用户群体有很大差异，群体间也极有可能存在很多相似之处，因为毕竟所有的用户都是人类。同时，许多可用性问题是和人们与界面交互的基本原理，或其他界面对用户的先前影响相关的，这也就表明它们具有普遍性。

在测试多组用户群体时，你需要测试的数量也不像对于单个用户群体进行单次施测那么多。通过对每个群体更少数量的用户进行观察并交叉验证，可能会得到更好的结果。我推荐：

存在两种类型的用户时，对每类的3-4名用户进行测试
如果用户类型有三种或更多，对每类测试3名用户（测试至少3名用户可以确保你观察到该组内多样化的行为）

四、其他类型测试的情况

定量化测试（可用性指标）：测试20名用户
卡片分类：测试15名用户

附录

参考文献
Nielsen, Jakob, and Landauer, Thomas K.: “A mathematical model of the finding of usability problems,” Proceedings of ACM INTERCHI’93 Conference (Amsterdam, The Netherlands, 24-29 April 1993), pp. 206-213.

原文地址：https://www.nngroup.com/articles/why-you-only-need-to-test-with-5-users/