前言

总结：用户研究员可以使用这种流行的观察方法来发现设计中的问题和机遇。

可用性测试是一种常见的UX研究方法。

在可用性测试场次中，一名研究员（被称作“主持人”）让参与者完成涉及一个或多个特定用户界面的若干任务。在参与者完成每个任务的同时，研究员观察参与者的行为，听取反馈。

“可用性测试”这个短语常常与“用户测试”互换使用。

（然而，对于使用“用户测试”这个词语的一个反对意见是，它听起来像是研究员在测试用户——我们并不测试用户，只测试界面。然而，这个术语的含义是与用户测试，而这正是实证研究的重点。）

一、为什么要做可用性测试？

可用性测试的目标往往根据研究的不同而有所区别，但一般来说包括：

发掘产品或服务设计中的问题
发现改进机会
了解目标用户的行为和偏好

可用性测试101 - 图1
可用性测试帮助我们发现问题和机遇，并了解用户。

我们为什么需要进行可用性测试？难道优秀的、专业的设计师不应该知道如何设计好用的交互界面吗？其实，即使是最好的设计师也无法在不观察真实用户、据此进行迭代设计的情况下设计出完美——甚至是足够好的用户体验。

在当下，设计一个用户界面已经有许多变量存在，而人类大脑则有更多的变量。两个加在一起的数字是巨大的。确保UX设计正确的唯一方式就是测试它。

二、可用性测试的元素

可用性测试有许多不同种类，但绝大多数可用性测试的核心元素是主持人、任务，和参与者。
可用性测试101 - 图2
一个可用性测试场次包括一名参与者和一名主持人，主持人给参与者任务，并观察其行为。

主持人将任务发放给参与者。在参与者进行任务时，主持人观察参与者的行为，并听取反馈。主持人可能也会追问一些问题，来从参与者处获得更多细节。
可用性测试101 - 图3
在可用性测试中，主持人向参与者给出任务说明和场景。参与者则通过执行这些任务，提供行为和语言上的反馈。

2.1 主持人

主持人在测试过程中引导参与者。他应该给出说明、回答参与者的问题、并进行追问。
主持人要确保测试结果是有效、高质量的，并避免偶然地影响参与者的行为。达到这种平衡有一定挑战，需要培训和练习。
（对于一种叫做“无主持的远程可用性测试”的远程可用性测试，软件或平台会行使一部分主持人的职责。）

2.2 任务

在可用性测试中，任务是参与者在日常生活中可能会进行的真实活动。它们可以很具体，也可以很开放，完全取决于你的研究目的和可用性测试的类型。

以下示例任务来自于真实的可用性测试：

您的打印机显示“错误5200”。您怎样才能去掉这个错误信息？
您正在考虑在富国银行办一张信用卡。请访问富国银行官网wellsfargo.com，看看是否有您感兴趣的信用卡。
您被告知您需要去和项目管理部的Tyler Smith联系。用内联网找到他的办公位置。

组织任务语言对于可用性测试非常重要。任务表述上的一个小错误都可能会让参与者误解他们需要进行的任务，或者影响他们进行任务的方式（这是一种被称为“启动”的心理学效应）。

任务说明可以通过口头方式分发给参与者（主持人读出任务），也可以通过打印出来的任务纸来实现。我们通常让参与者大声读出任务说明。这帮助确保参与者完全阅读说明，也帮助研究员记笔记，因为他们需要一直清楚用户正在进行的是哪项任务。

2.3 参与者

参与者应该是我们研究的产品或服务的真正用户。这意味着用户在现实生活里已经在使用该产品或服务了。在一些情况下，参与者也可以只是和目标用户群体有相似的背景，或是相同的需求，而并不一定是产品的现有用户。

在可用性测试中，我们通常要求参与者出声思考（叫做“出声思考法”）。主持人可能会在让参与者讲述他们的行为、想法。这样做的目的是理解用户的行为、目标、想法和动机。
可用性测试101 - 图4
在该可用性测试中，参与者坐在左边，主持人在右边。参与者使用的是施测的电脑，进行任务的同时录屏软件记录下屏幕上发生的事情。笔记本的摄像头用来捕捉参与者的面部表情。笔记本与外接显示屏相连，后者帮助主持人观察用户的操作。主持人聆听用户反馈、分发任务，并记录笔记。该照片是在参与者完成一个任务后拍摄的，此时主持人正在追问他相关问题。

三、可用性测试的类型

3.1 定性 vs. 定量

可用性测试可以是定性，也可以是定量的。

定性可用性测试关注收集关于人们如何使用产品或服务的见解、发现和轶事。定性可用性测试最能够发现用户体验中的问题。这种可用性测试的形式比定量可用性测试更常见。

定量可用性测试专注收集描述用户体验的指标数据。在定量可用性测试中最常收集的两个指标是任务成功率和任务用时。定量可用性测试最适合收集标定数据。

可用性测试需要的参与者数量取决于测试的类型。对于同一用户群体的典型定性可用性测试，我们推荐使用5名参与者来发现产品里最常见的可用性问题。

3.2 远程 vs. 线下测试

远程可用性测试很受欢迎，因为它相较于线下研究，往往需要更少时间和金钱投入。远程可用性测试分为两种：有主持人和无主持人。

有主持人的远程可用性测试和线下测试其实很像。主持人仍然与参与者互动，并分发任务。然而，主持人和参与者处于不同的地理位置。一般来说，远程可用性测试可以通过屏幕共享软件如Skype和GoToMeeting来完成。

无主持人的远程可用性测试中，参与者并不能像线下或者有主持人的测试那样与主持人互动。研究员需要使用精心设计的在线远程测试软件，预先准备好任务给参与者。接着，参与者在他们自己有空的时间完成这些任务。在参与者完成测试后，研究员会收到该场次的录像，同时也包含一些指标数据如任务成功率。
可用性测试101 - 图5
在无主持人的远程可用性测试中，信息流动会发生变化，因为此时主持人对参与者的影响与有主持人的可用性测试不同。测试平台成为了主持人的角色，将任务分发给参与者。研究者设计测试形式，并将任务说明上传到平台，并在数据收集上来之后检视数据（往往通过回看任务录像完成）。

四、可用性测试的花费

简单、“实惠”的可用性测试（测试5名用户）的花费并不会很高，尽管你可能还是需要给参与者合计几百美元的酬金。测试可以在会议室里进行，而最简单的研究只需要花费你3天时间来完成（假定你已经了解如何进行可用性测试，并且可以招募到参与者）：

第一天：计划研究
第二天：测试5名用户
第三天：分析数据，并将它们转化为下次迭代时设计上的改进建议

另外一方面，有时我们也需要花费更多的研究项目，而最复杂的研究可能需要数十万美元的投入。
可能会增加投入的影响因素包括：

对多个设计进行竞品测试
在多个国家对国际用户进行测试
对多个用户群体（或用户画像）进行测试
定量研究
使用高级设备，如眼动仪
需要专门的可用性实验室或焦点小组会议室，从而允许其他利益相关方观察
对于研究发现需要详尽的分析和报告

复杂研究的投资回报率可能也会很高，虽然它们的投资回报率往往比不上简单的研究。

五、可用性测试相关资源

附录

原文地址：https://www.nngroup.com/articles/usability-testing-101/