定量研究要测试多少个用户？

在收集可用性指标问题时，20 个用户的测试通常会提供相当可靠的置信区间。
我们可以根据质量指标定义可用性，例如学习时间、使用效率、可记忆性，用户错误和主观满意度等。可悲的是，因为这么做费用很高，很少有项目收集以上这些指标：收集这些指标需要测试的用户数是简单测试的 4 倍。
由于用户性能存在巨大的个体差异，因此需要测试许多用户。当你衡量人时，你总会得到一些非常快速的人和一些非常缓慢的人。鉴于此，你需要在相当多的观测值上对这些度量取均值，以平滑度量的可变性。

一、Web 可用性数据的标准偏差

从以前的分析中我们了解到，网站等产品上的用户表现遵循正态分布。这是值得高兴的，因为正态分布在统计上很容易处理。通过这两个数字——平均值和标准偏差——你就可以绘制表示数据的钟形曲线（正态分布曲线）。
我分析了 1520 个用户任务时间度量，它们来自 70 个官网和内联网相关的任务测试。在这些研究中，标准差为平均值的 52%。例如，如果某个人物的完成平均时间是 10 分钟，那么该指标的标准偏差为 5.2 分钟。

二、去除异常值

为了计算标准偏差，我首先删除了过慢用户的异常值。这是合理的吗？在某些方面，不是的：慢用户是真实存在，并且在评估设计质量时应该加以考虑的。因此，即使我建议从统计分析中删除异常值，你也不应该忽略它们。对异常值的测试会话进行定性分析，并找出降低性能的“坏运气”（例如：糟糕的设计）。
然而，对于大多数统计分析，都应该消除异常值。因为它们是随机发生的，所以在一项研究中可能会有更多的异常值，这些极端值会严重影响平均值和其他结论。
计算统计数据的唯一理由是将它们与其他统计数据进行比较。假设任务时间均值为 10 分钟，但 10 分钟好还是坏？你无法判断，因为这个数据是孤零零存在的，没有和其他数据进行比较。
如果要求用户订阅电子邮件，10 分钟的平均任务时间将会非常糟糕。从许多新闻订阅流程相关的研究中得知，其他网站的平均任务时间为 1 分钟，用户只需要不到 2 分钟就能满意。另一方面，10 分钟就表示用于更复杂任务的可用性非常高，例如申请抵押贷款。
关键在于收集可用性度量标准，将它们与其他可用性度量标准比较，例如将你的网站与竞争对手的网站进行比较，或将你新的设计与旧网站进行比较。
当从两个统计数据中消除异常值后，仍然会有有效的比较。如果留有异常值，两种情况下的平均任务时间都会显得高一些。但如果没有异常值，你更可能得出正确的结论，因为你不太可能高估平均值，而这个平均值恰好有更多的异常值。

三、估算误差的余量

当将来自正态分布的多个观测数据进行平均时，平均值的标准偏差（SD）是各个数值的 SD 除以观测数量的平方根。例如，如果有 10 个观察值，则平均值的 SD 为原始标准差的 1 / sqrt（10）= 0.316 倍。
20.02.12 郑几块-定量%26可用性研究需要测试多少用户？ - 图1
我们知道，对于企业官网和内部网的用户测试，SD 是平均值的 52%。换句话说，如果测试了 10 个用户，那么平均值的 SD 将是平均值的 16%，因为 0.316 x 0.52 = 0.16。
假设我们正在测试需要 5 分钟才能完成的任务。那么，平均值的 SD 是 300 秒的 16% = 48 秒。对于正态分布，2/3 的例子与平均值相差 +/- 1 SD。因此，我们的平均水平将在 48 秒之内。
下图显示了测试不同用户数量时的误差幅度，假设需要 90% 的置信区间（蓝色曲线）。这意味着 90% 的可能性在此区间，5% 过低，5% 过高。对于实际的项目，确实不需要做得比这个更精准。
红色曲线显示了如果放宽要求到一半的时候会发生什么。（这意味着我们会在 1/4 时间内过低，而在 1/4 时间内过高。）
20.02.12 郑几块-定量%26可用性研究需要测试多少用户？ - 图2
不同数量用户与误差范围大小

四、确定用户数量

在图表中，误差范围表示为可用性度量标准平均值的百分比。例如，如果测试 10 个用户，则误差范围则是平均值的 +/27%。这就是说如果平均任务时间是 300 秒（5 分钟），那么误差范围是 +/-81 秒。因此，置信区间就从 219 秒变为 381 秒：90％的可能性在此区间内; 5% 的低于 219，5% 的高于 381。
这是一个相当宽松的置信区间，同时，这也是为什么我建议在收集量化可用性指标时用 20 个用户进行测试的原因。对于 20 个用户，可能会有1个异常值（因为 6% 的用户是异常值），将平均覆盖 19 个用户数据。这使得置信区间从 243 变为 357 秒，因为测试 19 位用户的误差范围是 +/-19%。
你可能觉得这仍然是一个很宽松的置信区间，但事实上，要进一步收紧这个置信区间需要付出高昂的代价。要获得 +/-10% 的误差范围，需要 71 个用户数据，也就是说你必须测试 76 人来考虑 5 个可能的异常值。
从实际项目来看，测试 76 个用户是完全没必要的。每个设计测试 20 个用户，就可以获得 4 种不同设计的足够好的数据，而不仅是为了更好的指标，将预算用户单个设计测试。
实际上，对于大多数情况来说，+/-19% 的置信区间就足够了。主要是，要比较两种设计，看哪一种更好。毕竟，网站之间的平均差异是 68% ——这远高于误差范围。
另外，请记住 +/-19% 几乎是最坏的情况；90% 的机会你会做得更好。红色曲线显示，如果使用 20 个用户进行测试并分析 19 个数据，则其中一半可能性在平均值的 +/-8% 范围内。换句话说，一半的可能性获得了较好的精准度，另一半获得十分高的精准度。这就是非学术项目所需要的。

五、定量与定性

基于以上分析，我建议在做 20 个用户的定量研究测试。这非常贵，因为很难找到符合目标用户群的测试用户。
幸运的是，你不必衡量可用性从而改进它。通常，只需少量用户就可以进行测试，并根据对其行为的定性分析所发现的问题来修改设计。当你看到有几个人被同样的问题所困扰时，你并不需要了解用户被影响到了什么程度。如果它正在（或者已经）伤害了用户，那就有必要调整或者改进的必要。
通常可以对 5 个用户进行定性研究，不过定量研究的费用大致为定性的 4 倍。此外，定量研究很容易出错并产生误导性数据。当你收集数据而不是见解时，一切都必须十分精确，否则就做不好定量研究。
由于价格昂贵且难以正确运用，通常会特别谨慎的使用定量研究。我十分建议，你做的前几个可用性研究最好是定性的。只有经常做可用性研究，并且将研究结果与实际结合运用并取得实质性的进展后，才能开始在研究中使用一些定量研究。

可用性研究中要测试多少个用户？

答案是 5 个，无一例外。使用更多测试者的论点大多数时候是不对的，不过有些却需要更多。
如果你想要一个单一的数字，答案很简单：在可用性研究中测试 5 个用户。在可用性研究中，测试 5 个人可以让你发现绝大部分的可用性问题，这和你测试更多用户得到的结果并没有太大的差异。
从 1989 开始推广“折扣可用性工程”以来，这个答案一直是这样的。无论你测试官网、内部网、PC应用程序，还是测试移动应用，都是这样。测试 5 个用户，你几乎总能得到最大投入产出比。
然而，与人为因素有关的问题，当然也会有例外：

定量研究（针对统计数字，而不是洞察力）：测试至少 20 个用户以获得统计学上显著的数字；严格的置信区间需要更多的用户。
卡片分类：每个测试组至少有 15 个用户。
目测：如果要获得稳定的数据，要测试 39 个用户才行。

不过，你没必要担心上面那三种情况，因为你的绝大多数用户研究都是定性的，也就是说，旨在收集洞察力驱动产品设计，而不是在 PPT 上给人留下深刻印象的数字。
5 人测试的主要争论点是简单的投资回报：随着参与测试用户的增加（同时成本也在增加），但到了一定数量后回报的增速递减。在同一个研究中测试超过 5 个人没有什么额外的好处；ROI 像一个大石头一样极具下降。
如果你有足够的预算？哎呀！快去把它花在额外的研究上，而不是在每项研究中更多的用户上。
遗憾的是，大多数公司坚持做更大的测试。在 UX 会议期间，我调查了 217 名参与者公司的情况，他们每次进行测试用户数量的均值是 11 ——是推荐数的两倍以上。显然，我需要更好地解释 5 人可用性测试的好处。

83个案例研究

下图总结了尼尔森-诺尔曼集团最近实施的 83 个可用性咨询项目。每个点是一个可用性研究，它显示了测试的用户数（横轴），以及收集到的可用性问题（纵轴）。（图中仅包含常规的定性研究；我们还运行有竞争力的研究和基准测量，以及并未在这里显示的其他类型的研究。）
20.02.12 郑几块-定量%26可用性研究需要测试多少用户？ - 图3
有一个相关性，真的很小。在众多的项目中，测试更多的用户并没有引起更多的洞察力。
既然相信这些研究结果显示了小规模测试的优越性，为什么我们还要做更多的用户测试呢？原因有三个：

一些客户希望对内部信誉进行更大规模的研究。当一个研究的赞助商向不了解可用性的管理者提出调查结果时，测试更多的用户，这些结果更容易接受。（如果管理层相信自己的员工，就可以节省很多钱啊。）
一些设计项目有多个目标用户群，预期（或至少怀疑）行为的差异大到足以证明测试更多用户的花费是可行的。
最后，事实上，这些使用更多用户测试的咨询项目是合理的，这也是为什么我们经常做大约 8 个用户的研究。投资回报率是投入和产出之间的比率。当聘请顾问时，真正的投入往往比实际的要高出很多，因为企业必须花费时间来寻找顾问并进行谈判。随着投资的增加，你希望获得更大的收益。

最后一点也解释了为什么“多少用户”的真正答案有时会远远小于5。如果有一个较低投入的敏捷 UX 过程，在每一项研究中的投入都可以忽略不计，以至于成本效益被优化得很好。（在每一项研究中获益较少的情况下，获得更多的投资回报似乎是违反直觉的，但这种节省是因为每项研究的投入越少，就可以进行更多的研究，那么产出就会不断积累。）
对于实际投入很低的项目，最好的方式是只测试 2 个用户。对于其他一些项目，8 个用户——有时会更多——可能会更好。然而，对于大多数项目，你应该不断尝试和验证：有 5 个用户的可用性测试。

卡片分类法解析：究竟要测试多少用户？

在卡片分类测试中，使用过多的测试用户会使回报率递减，但测试至少 15 个用户，效果将是传统可用性测试的 3 倍之多。
官网和内网设计（注1）中最大的挑战之一就是信息架构：在哪会发生什么？一个经典的错误类型就是根据如何查看内容来构建信息空间——这往往会导致公司各个部门或信息提供商拥有不同的子网站。
可以通过创建反映用户查看内容的信息架构的方式，来提高可用性测试，而不是简单地镜像组织结构。在每项企业内部网络调研中，我们发现，当企业重组内部网反映员工工作流程时，生产力会高效增长。而在电子商务中，当产品出现在用户期望找到的类别时，销售量会增加。
所有这一切都很棒，但如何找出用户对信息空间的看法，以及他们认为每个项目应该如何进行呢？为了研究这种心智模式，主要的方法是卡片分类法：

在索引卡上写下每个主要项目的名称（以及简短描述）。没错，就是那种旧式的纸卡片。（注意不要使用让用户产生偏向的术语。）
随意打乱卡片后交给用户。（招募测试者的标准，建议：他们必须是典型用户，等等）
要求用户将卡片分分类，将同一类的在一起。用户可以根据自己的喜好进行分类，包括类型的数量、类型的大小，等等。
可选的额外步骤包括：要求用户将已有的分类分成更大的组、给不同的组和类命名。之后可以针对用于导航标签、链接、标题和搜索引擎优化的单词和同义词，给出建议。

由于卡片分类不使用技术，这些 1995 年的组卡方式，在当今看来，也并未过时。

一、研究进展

富达投资集团拥有一支非常棒的可用性测试团队，由人机界面设计高级副总裁 Thomas S. Tullis 博士领导。Tullis 和合著者 Larry Wood 发布过一项研究结果，该研究测量了在卡片分类练习中测试各种用户数量的权衡曲线。
首先，他们测试了 168 位用户，有了非常可靠的结果。然后，他们通过分析总体样本的随机子集，使用较小用户群对卡片分类研究的结果进行模拟。例如，要模拟 20 个用户的测试结果，他们从 168 个用户中随机抽取了 20 个用户，并仅分析该小组的卡片分类数据。通过选择多个类似的样本，可以估计来自不同数量用户测试的平均结果。
卡片分类研究中主要的定量数据是一组相似度分数，用于度量用户对不同物品评分的相似度。如果所有用户将两张卡片分成同一组，那么由卡片代表的两个项目将具有 100% 的相似度。如果有一半的用户将两张卡放在一起，一半放在不同的组中，那么这两个项目的相似度为 50%。
我们可以通过研究的相似性得分与测试大量用户群所得分数的相关程度来评估较小的卡片分类研究的结果。（提醒：相关性从 -1 到 +1 ，相关性 1 表示完全一致；0 表示无关；-1 表示相互对立。）

二、需要多少用户？

对于大多数可用性研究来说，我建议测试 5 个用户，因为这就能够让你获得足够的数据了，在测试中你能够了解大部分可用性问题。但是，对于卡片分类，5 位用户的结果与最终结果之间只有 0.75 的相关性。这个结果还不够好。
测试 15 个用户才能达到 0.90 的相关性，这是一个更加合适的范围。在 15 个用户之后，不但收益会递减而相关性的增加也不明显：测试 30 人相关性达到 0.95 ——这当然更好，但通常不值双倍的钱。超过 30 名用户几乎没有任何改进：测试 60 人相关性达到 0.98，这么做无疑是一种浪费。
Tullis 和 Wood 建议使用 20-30 个用户进行卡片分类测试。根据他们的数据，我的建议是测试 15 个用户。
为什么我建议测试更少的用户？我认为，大多数情况下，0.90（15 个用户）或 0.93（20 个用户）的相关性已经足够好了。如果你有一个大型的、资金充足的项目（比如一个涉及 10 万名员工的内部网络，或者一个收入为 5 亿美刀的电子商务网站），我当然希望测试 30 人使相关性达到 0.95。但大多数用户研究资源非常有限，在 3 个不同的定性可用性测试中，每个测试 5 个用户——共 15 人进行的测试更为合适。

三、让用户尽情表达

我不建议纯粹基于以卡片排序的相似性组织的信息架构进行设计。在决定哪里有什么的具体细节时，应该尽可能多地运用在测试阶段获得的定性数据。卡片分类的大部分价值来自听取用户的评论，因为是他们对卡片进行分类：你要知道，了解为什么人们将某些卡片放在一起，能够更深入地了解他们的心理模型，而不是单纯地将卡片分类到同一组中。

四、为什么需要更多的用户进行卡片分类？

我们知道对于大多数可用性研究，5 个用户已经足够了，为什么卡片分类却需要 3 倍的参与者才能达到相同的水平？因为它们在两个关键点上有所不同：

用户测试是一种评估方法：我们已经有了一个设计，我们试图找出它是否与人性和用户需求相匹配。虽然人们在能力（领域知识，智能和计算机技能）方面存在很大差异，但如果某个设计因素产生问题，在测试一些用户之后，就会发现这些问题。低端用户可能会比高端用户遇到更严重的问题，但除非你正在进行测量研究（这需要更多用户），否则难度的大小并不是问题所在。你需要知道的是，设计元素如果不适用于人，就应该改变它。
卡片分类是一种生成方法：我们还没有设计，我们的目标是找出人们如何思考某些问题。不同人的心智模式和他们用来描述相同概念的词汇存在很大的差异。我们必须从一定数量的用户那里收集数据，才能获得稳定的用户偏好画像，并确定如何适应用户之间的差异。

如果你有一个现有的官网或内部网，测试一些用户会告诉你信息架构是否给人们带来了问题。所以要从头开始创建新的结构，必须抽取更多人进行测试。
幸运的是，你可以将这两种方法结合：首先，使用生成性研究为设计确定方向。其次，设计一份草稿，最好使用纸质原型，并进行评估研究以改进设计。因为可用性评估速度快而且便宜，所以你可以做多次；并且还为你最初的创造性发现提供了质量保证。这就是为什么你不应该浪费资源来压缩卡片分类那最后 0.02 相关性的原因。在随后的用户测试中，你会发现任何小的错误，这比卡片分类研究的规模增加一倍或三倍都要便宜得多。

五、研究的不足

富达研究有两个明显的不足：

这只是一项研究。有多家公司的数据会更好。
该分析纯粹是定量的，侧重于相似性的统计分析，忽略用户评论和其他定性数据。

不过，这两个不足却不足以致命。我认为这是一项开拓性的研究，对网络可用性知识做出了巨大贡献。但是，由于该研究存在缺点，如果用不同的信息空间复制它，并且同时分析定性数据与定量数据，将会非常有用。听起来像是一个很好的研究生论文的选题，这个选题研究的是与真实世界影响相关的事物。
尽管数据多会让人感到欣慰，但我对富达研究的结论充满信心，因为它们与我多年来从事卡片研究的观察结果相符。我一直说，有必要为卡片分类测试更多的用户，而不是传统的可用性研究。我通常会推荐大约 15 位用户进行测试，不过在预算紧张或用户特别难招募（只有 12 位用户）的时候，也有不错的结果。
有好多中方法，在定量研究过程中，会误导你。因此，如果你看到一个单独的定量研究与定性研究中已知的所有结论相矛盾，一个谨慎的做法是忽视新研究并假定它很可能是假。但是当一项定量研究证实了已知的信息时，它很可能是对的，并且可以使用新的数据作为合理的预测值，即便这基于你现有的可怜的数据。
因此，当前的建议是在大部分卡片分类中测试 15 位用户，在有资金支持的大型项目中测试 30 位用户。
参考：

Tullis, Tom, and Wood, Larry. (2004) How Many Users Are Enough for a Card-Sorting Study?, Usability
Professionals Association (UPA) 2004 Conference, Minneapolis, MN, June 7–11, 2004.

注释：我希望扩大网站的思考范围到产品和服务层面

#专栏作家#

郑几块，人人都是产品经理专栏作家，前新浪微博产品经理。
本文系作者@郑几块独家翻译授权，未经本站许可，不得转载

增长黑客知识库

20.02.12 郑几块-定量%26可用性研究需要测试多少用户？