Why You Only Need to Test with 5 Users
Summary: Elaborate usability tests are a waste of resources. The best results come from testing no more than 5 users and running as many small tests as you can afford.

原文链接:https://www.nngroup.com/articles/why-you-only-need-to-test-with-5-users/
作者: Jakob Nielsen
译者:陶二台

可用性测试

有些人认为可用性测试是很项花费很大且过程复杂的工作,且他们会认为一般是预算充足且设计时间较长的网页设计项目才会用到可用性测试。不对!过分设计的可用性测试是一种资源浪费。从测试结果来看测试不超过5个用户最佳,且最好尽可能的进行一些小规模的测试。
在早期研究中,Tom和我展示了在可用性测试中测试用户数量(n)与发现的问题数量之间的关系:
N (1-(1- L ) n )
当 N 代表了在设计中能遇到的所有可用性问题,而 L 则代表了每个测试用户发现可用性问题的比例。L 的典型值是31%,这是我们研究了大量项目后平均出来的值。于是我绘制出了当L为31%时的 N&n 曲线:

image.png

当你从第一个测试用户那里收集到问题数据,你发现的问题就迅速增加且一开始你就能知道这次可用性测试中33%的问题。没有数据和获取到零星数据的区别是巨大的。
当你测试第二个用户,你将会发现他提出的很多问题会与第一位重复。但是每个人都是独特的,所以从第二位测试者身上你一定能找到不同于第一位测试者反馈的点。所以第二位测试者会有出很多的新问题,但是不及第一个测试者的数量多。
第三个测试用户提出的问题中,有很多你在第一位和第二位那儿都听到过,甚至有些都重复了两遍的问题。当然第三位会提出一点新的问题,即使没有第一位与第二位问题那么多。
当你采访越来越多的用户,你会发现你能收集到的问题越来越少,因为你一直在接触重复的问题。不断的研究重复的问题真的没有必要,且你会很想回去重新设计原型并解决这些可用性问题。
测试用户到第五位后,你就会浪费时间在重复的问题上。

迭代设计

曲线清晰的显示出:你至少需要测试15位用户才能发现设计中所有的可用性问题。所以为什么我建议只需要测试5个人呢?
主要的原因是:将你的预算分配于多次测试会更好,而不是把所有的预算用于单一且复杂的测试中。举个例子哈,如果你有招募15位测试用户的预算资金,那么很好,请将其分成三份各自分给三个不同的可用性测试(同一个项目中)。
你需要进行多次测试,因为可用性测试工程旨在提升设计而不是积累问题。在第一次的五人测试中我们已经发现了85%的可用性问题,你将想要通过再设计去解决这些问题。
在设计出新的点之后,你需要再次测试用户。即使我说了再设计应该解决在初期研究中发现的问题,但是由于没有人可以设计出完美的UI界面,所以事实上是大家往往认为自己的新设计解决了问题。并没有什么可以证明新的设计点已经解决了上述发现的问题。第二次测试可以证实新的设计是否有效。而且即使之前的问题解决了,在引入新的设计点后也有可能带来新的可用性问题。
而且,新一轮的五人测试可以发现之前一轮测试中遗漏的约15%的可用性问题。(然而还有2%的问题需要在第三轮测试中被发现)
最后,第二轮测试将更深层地探究到网页项目基础框架的可用性问题,更深层地评估诸如:信息架构,任务流程,匹配用户需求的问题。这些重要的问题往往在初次测试中不被注意,因为在初次测试中大家被难用的界面困住,以至于无法发现更深层次的问题。
所以第二轮测试兼顾了验证首轮问题修正和挖掘更深层问题的功能。第二轮测试也可能导致在再设计后的一系列可用性问题(少量)。而且同样的情况其实也适用于再设计:并不是所有的解决方案都有效;且解决完UI层面的问题还有很多深层的问题隐藏着。因此我们需要进行第三轮测试。
最终通过三轮5人测试的方式来提升用户体验的办法要比单次15人测试效果更好。

为什么不测试单个用户?

你可能会觉得进行15轮单人测试的方案会优于3轮5人测试方案。曲线揭示了我们从首位测试用户那儿得到的信息量要远超过后续用户的信息量,所以我们为什么还要坚持使用3轮的5人测试方案呢?有两个理由:

  • 存在被单个用户具有欺骗性行为误导的风险,该用户可能有特殊的经历或他的行为并不具备代表性。选择三个测试用户足以通过用户行为的多样性来证实,也能更好地了解哪些用户行为具有共性。
  • 根据测试的类型不同,用户测试的成本收益分析给出的最佳人数是3~5人。计划并运行一轮测试是有个固定的初始成本的:测试多个用户可以分担这个初始成本。

    何时需要去测试更多的用户?

    当你的用户群存在高度不统一时,你需要额外地测试用户。上述的公式只适用于使用习惯差不多的用户。举个例子:你有个网站开放给孩子和家长使用,这两个用户群的使用方式大相径庭,那么测试这两类用户就很有必要了。同样的道理也适用在同时给销售人员和采购人员使用的系统上。
    即使当用户群存在很大的差异,但经过观察他们会发现还是有大量的相似之处,毕竟所有的用户都是人类。大多数的可用性问题都和人们与网页交互的基本方式有关,有些也受到了其他网页对用户行为的影响。
    在测试多个不同用户组的过程中,你不必像上述单人测试那样安排很多的人(5人)。通过控制每组的测试人数可以减少测试过程中出现的重复信息,所以我建议:

  • 如果测试两种不同的用户,每种用户选择3~4人

  • 如果测试两种以上的不同用户,每种用户选择3人

    参考文献

    Nielsen, Jakob, and Landauer, Thomas K.: “A mathematical model of the finding of usability problems,” Proceedings of ACM INTERCHI’93 Conference (Amsterdam, The Netherlands, 24-29 April 1993), pp. 206-213.

原文发表于:2000年3月18日