问题形式
四形式
开放式 Open-Ended
没有限制,但是需要用户更多的努力和时间来回答。
使用开放式问题的一个常见原因是更多地了解一个现象或主题。有时,对开放式问题的回答会告诉您您需要知道的一切。其他时候,它们可能是开发封闭式问题的第一步,使用来自定性研究的信息来指导一轮更定量的研究。例如,当我们进行无节制的可用性研究时,我们通常会列出潜在问题在每个任务完成后给参与者。
如果可能,我们会根据我们从先前研究中收集和识别的错误来列出该列表。但是,当我们第一次编制错误列表时,我们会使用开放式问题进行试点研究,以确定可能的任务和可用性问题。有关开放式问题的示例,请参见图 1;有关问题列表的示例,请参见图 2。如图 2 所示,我们通常在列表末尾包含一个开放式选项,以便参与者可以告诉我们我们是否错过了之前研究中的问题。
如果您可以单独采访每个受访者,您可能会问很多开放式问题。对于电子调查,开放式项目允许参与者用自己的话(从一个词到多个句子)表达他们的想法。可以检查响应并将其编码为变量并进行统计分析。来自不同类型调查的一些开放式项目示例包括:
- 您会在网站上改进哪一件事?
- 您将哪三个词与品牌联系起来?
- 简要描述为什么任务难以完成。
- 请描述您给出评分的原因。
- 用您自己的话来说,您会如何向朋友描述这款产品?
开放式问题通常难以分析,因为答案更加多变。人们也更难以回应(尤其是在小型移动屏幕上打字时)。如果您有一组有限的选项,封闭式回答可能是更好的选择,或者考虑混合:带有“其他”选项的封闭式问题(见下文)。
封闭式 Closed-Ended
封闭式问题——顾名思义——列举了参与者可供选择的选项。这些通常分为三种类型:单项选择题、多项选择题或评分量表。这些类型被认为是静态的,因为与下一节中介绍的封闭式动态问题相比,受访者看到所有相同的组合和问题(即使它们以随机顺序呈现)。
可以分为多项选择或评分量表(通常要涉及参与者对抽象概念进行评分,比如易用性,满意度,推荐可能性)
封闭式静态 Static
- 单项/多项选择
- 评分量表
单选/多项选择
调查中最熟悉且可能最常用的项目是带有单一响应的多项选择选项。这些类型对于大多数人口统计问题都是典型的,例如年龄、性别、教育和收入。确保这个问题的选项确实是相互排斥的。如果参与者可以选择多个答案,请使用多选答案类型。选项可以显示为如图所示的单选按钮或下拉列表。
具有多项响应类型的多项选择题同样常见,并且在需要多个值时起作用,例如询问参与者他们拥有哪些电子设备或参与者熟悉的品牌
您通常可以通过在封闭式问题中添加“其他”选项来获得两全其美,如下例所示,要求参与者回忆他们可能使用 Cigna 移动应用程序的目的(此数据出现在健康保险基准):
评分量表
评分量表是一种特殊类型的封闭式问题,通常要求参与者对抽象概念进行评分,例如满意度、易用性或推荐的可能性。项目选择对回答和解释都有很大的影响。
评级量表有不同的分类方法,轻微的变化可能会导致看起来不同的评级量表,即使它们只是同一量表上的变化。最常见的量表是线性数字、李克特和频率。


封闭式动态 Dynamic
基于任务的 Task Based
七组松散分类
Schaeffer 和 Dykema(2011 年)回顾了发表在《舆论季刊》上的研究,并根据他们遇到的问题类型对七组进行了松散的分类
| 事件和行为 Events and behaviors |
去看医生、购买牙膏 |
|---|---|
| 评估或判断 Evaluations or judgments |
轻松程度、对产品的满意度 |
| 内部状态或感觉 Internal states or feelings |
快乐、焦虑、惊讶 |
| 把…视为/认为 Accounts |
采取行动的原因,例如离职或购买产品 |
| 分类 Classifications |
有没有401k,有没有电动车 |
| 社会特征 Social characteristics |
婚姻状况 |
| 环境描述 Descriptions of the environment |
公司员工人数 |
Schaeffer 和 Dykema 并不打算将他们的列表作为详尽的分类法。虽然它为其他研究人员提供了一个良好的开端,但它确实存在一些挑战。例如,分类问题如何与账户和社会特征区分开来?
紧凑四组合
根据内容进行分类
- 属性
- 行为
- 能力
- 想法,情感和判断
属性 Attributes
通常,在调查开始时会询问人口统计类型的问题,以筛选出受访者(例如,仅包括 18-44 岁的人)或对他们进行表征以供以后分析和交叉表(例如,高收入与低收入)。除了标准的人口统计数据,本课程中的问题还可以衡量个人和群体(如公司、组织或城市)的属性。
常见的属性问题包括
- 年龄
- 教育
- 地点
- 收入
- 种族
- 职业
- 贵公司的员工人数
- 与您同住的家庭成员人数
在使用这些问题进行筛选时,常见的问题格式是多项选择单回答,有时带有一个或多个可选的“其他”填写回答。当属性定义不够好以创建一组可能的响应选项时,适当的格式是一个开放式问题。这允许探索不受约束的响应,但增加了分析负担。
使用收入或年龄等属性时要小心,因为很容易创建重叠类别(例如 18-21;21-25)或缺失值(例如 $25,000 到 $39,000;$40,000 到 $50,000)。
避免问太多属性问题,因为有些问题可能很敏感(例如,收入),并且您不想让您的调查与您不打算使用的问题混为一谈(较短的调查具有较高的响应率)。如果信息可通过其他来源(例如,来自客户记录)获得,情况尤其如此。
行为 Behavior
这些问题要求对过去或当前的行为进行自我报告。不应将它们与在适度或非适度用户体验研究中实际观察行为相混淆,除了本文中讨论的问题类别外,还具有基于任务的活动来捕捉实际任务行为,例如完成时间、成功率、屏幕路径和点击)。
自我报告行为的例子包括
- 使用产品、应用程序或服务的先前经验
- 在线购买的产品
- 使用送餐服务
- 使用凯悦移动应用进行酒店预订的频率
- 在 Expedia 上预订的航班数量
- COVID-19 对求职行为的影响
行为问题通常报告为频率、持续时间/任期和强度。在用户体验研究中,产品、网站或应用程序的先前经验对其他指标的影响最大。熟悉会产生内容:使用产品时间较长(持续时间/任期)的人会更频繁地使用产品(频率)并使用产品的更多功能(强度)。他们更有可能成功、快速地完成任务,并且通常以更积极的态度来完成任务。
在衡量行为问题时,请注意模糊的修饰语(有时,经常),不同的人可能会以不同的方式解释这些修饰语。对先前行为的自我报告,如果测量正确,可以成为未来行为的合理(但远非完美)预测指标。
对于行为问题,您通常需要有一个参考期(例如,一周、一年、十年)。参考期越长,参与者就越有可能忘记细节。
能力 Abilities
当你想衡量受访者的知识或技能时,你会问能力问题。这些看起来很像测验或评估,无论是填空还是多项选择。能力问题通常在 CX 调查中用作评估对设计或界面的理解的间接方式。它们还可用于通过基于任务的问题来评估界面的可用性。能力问题的例子包括
- HDMI 代表什么?
- 在沃尔玛网站上找到一台平均至少四颗星且价格低于 45 美元的搅拌机。
- 什么是健康保险计划的免赔额?
- Netflix 的年度计划是多少?
- 隐私政策涵盖以下哪项?
- 哪种运输方式可以最快地为您提供产品?
提出能力问题不同于要求受访者 评估 他们的能力,这是在思想/情感问题中解决的问题(下文介绍)。我们知道我们的一些 UX 同事可能会反对基于任务的问题属于衡量能力的范畴。然而,在我们看来,将此类问题包括在这一类别中似乎是合理的,因为基于任务的问题有助于衡量人员完成任务的能力,从而可以评估用户对界面的体验。
想法,情感和判断 Thoughts,Sentiments,and Judgments
想法、情绪和判断问题通常是 CX 和 UX 调查的核心。它们包含广泛的问题,涉及态度、信念、感受、意见、偏好、意识和行为意图。一些常见的例子包括
- 品牌意识
- 品牌好感度
- 满足
- 感知可用性
- 感知有用性
- 偏爱
- 有意推荐
- 功能排名
- 自我报告的技术知识
想法和情绪通常使用多点评级量表来衡量,在许多情况下,它是标准化问卷的一部分,例如系统可用性量表 (SUS)、SUPR-Q或UMUX -Lite。更复杂的调查框架,例如Kano和MaxDiff,使用询问想法和判断的问题(哪些事情最重要或最不重要)。
15种常见评分量表解释
| 线性数字刻度 Linear Numeric Scale |
在线性数字量表中,参与者对问题或陈述提供一些数字响应。这可以包括满意度、易用性、品牌好感度、特征重要性或推荐可能性等。NPS中使用的单易问题 (SEQ)和推荐项目的可能性是线性数字量表的示例。线性数字刻度通常至少有标记的端点。(标签、中性点和响应选项的数量是其他文章的主题。) |
|---|---|
| 李克特 Likert |
经典的李克特量表让参与者同意或不同意(或同意/不同意)多个陈述。当数字与每个响应选项相关联时,李克特项可以看作是线性数字量表的一个特例。经典的 Likert 项目使用 5 点响应量表,但您也可以使用 7、9 或其他点。(尽管有人会对“正确”的步数有强烈的看法。)因为反应量表是关于同意的,所以要确保项目是参与者可以同意或不同意的短语。系统可用性量表 (SUS)、SUPR-Q和UMUX -Lite使用带有编号值的李克特量表。 |
| 多重评分矩阵 Multiple Rating Matrix |
矩阵题是表示多个线性数字项的一种紧凑方式,也是显示李克特项的典型方法。它可能在技术上与线性数字量表没有什么不同,但我将它分开了,因为它们在在线调查中非常受欢迎。例如,当让参与者评价他们的品牌态度时,通常使用类似于以下矩阵的矩阵。 |
| 频率尺度 Frequency Scales |
|
| 强制排名量表 Forced Ranking Scale |
|
| 挑选一些(又名顶级任务) | |
| 配对比较量表 | |
| 比较尺度/比较强度 | |
| 语义差异量表 | |
| 形容词清单 | |
| 语义距离尺度 | |
| 定额 | |
| 复合矩阵 | |
| 图形/图形比例尺 | |
| 视觉模拟/滑尺 |
线性数字刻度
李克特
李克特量表(/ˈ lɪk.ərt/LIK-ərt[1]或/ˈ laɪ.kərt/LY-kərt[2])是一种心理测量量表,通常参与使用问卷调查的研究。它是调查研究中使用最广泛的衡量响应的方法,因此该术语(或更完整的李克特类型量表)通常与评级量表互换使用,尽管还有其他类型的评级量表。 该量表以其发明者、心理学家 Rensis Likert的名字命名。李克特区分了适当的量表,它来自对一组项目(通常是八个或更多)的集体反应,以及在一个范围内对反应进行评分的格式。从技术上讲,李克特量表仅指前者。这两个概念之间的差异与李克特在被调查的潜在现象和捕获指向潜在现象的变化的方法之间所做的区别有关。

李克特量表是对几个李克特项目的反应的总和。由于许多李克特量表将每个构成李克特项目与它自己的视觉模拟量表实例配对(例如,一条水平线,受试者通过圆圈或检查刻度线表示响应),单个项目本身有时会被错误地引用作为存在或具有规模,这种错误在文献和该领域的用语中造成了普遍的混乱。
李克特项目只是一个陈述,要求被调查者通过在任何类型的主观或客观维度上给它一个定量值来进行评估,其中同意/不同意的程度是最常用的维度。精心设计的李克特项目同时表现出“对称性”和“平衡性”。对称性意味着它们包含相等数量的正负位置,其各自的距离关于“中性”/零值是双边对称的(无论该值是否作为候选值)。平衡意味着每个候选值之间的距离是相同的,允许定量比较(例如平均)在包含两个以上候选值的项目之间有效。
现在无处不在的李克特量表由多个项目组成。参与者被要求评估他们对描述主题的项目的同意程度,例如客户满意度、可用性或忠诚度。响应格式通常从“非常不同意”到“非常同意”,带有中性选项以及编号值,如下图所示。最经典的格式是5个,然而,按照惯例,李克特项目往往被分配渐进的正整数值。李克特量表的范围通常从 2 到 10,其中 3、5 或 7 是最常见的。
李克特量表是一种双极量表方法),测量对陈述的正面或负面反应。有时使用偶数点量表,其中“既不同意也不不同意”的中间选项不可用。这有时被称为“强制选择”方法,因为中性选项被删除。当受访者不确定时,中性选项可以被视为一个容易选择的选项,因此它是否是一个真正的中性选项值得怀疑。1987 年的一项研究发现,在李克特五点量表中,使用“未决定”和“中立”作为中间选项之间的差异可以忽略不计。
李克特量表产生有序数据。5 分制上 2 和 3 之间的差异不一定与 4 和 5 之间的差异相同(这是序数数据和区间数据之间的差异)。虽然李克特项目在技术上是离散数据,但您可以将许多李克特项目的平均值视为连续数据——您可以在其中计算平均值、标准差和置信区间。使用均值和相应的统计检验(如 t 检验)没有任何问题;请注意不要发表诸如“客户满意两倍”之类的陈述。虽然 4 的值是 2 的两倍,但当数据没有按比例缩放时,做出这样的陈述是有风险的。为了安全起见,只要说平均满意度是两倍高。一种称为Rasch 建模的高级技术,logit 转换原始序数数据并将其转换为区间数据,从而可以更好地解释。
多重评分矩阵
矩阵题是表示多个线性数字项的一种紧凑方式,也是显示李克特项的典型方法。它可能在技术上与线性数字量表没有什么不同,但我将它分开了,因为它们在在线调查中非常受欢迎。例如,当让参与者评价他们的品牌态度时,通常使用类似于以下矩阵的矩阵。
频率尺度
了解人们执行(或认为他们执行)操作的频率有助于进行产品规划,如下例所示。在列出行动的频率时,既要考虑具体的次数(例如每天),也要考虑更一般的时间范围(有时、总是、从不——称为口头频率标度)。此外,请确保频率按顺序排列且易于理解。例如,偶尔比有时更频繁吗?
当我们测量用户对使用 SUS 或 UMUX-Lite 的网站或软件易用性的态度时,我们会询问参与者使用该软件的频率,其语言频率等级类似于以下。(使用频率通常可以预测态度。)
强制排名量表
挑选一些(又名顶级任务)
配对比较量表
当您想强制在两个备选方案(类似于迷你排名)之间做出选择时,例如对网站、品牌或设计的偏好,请使用配对比较量表。
配对比较也可用于网站、产品或品牌的特定属性,如下所示,用于两个租车网站的不同方面。它们还用于高级问题类型,例如Max-Diff。
比较尺度/比较强度
语义差异量表
形容词清单
语义距离尺度
定额
复合矩阵
图形/图形比例尺
视觉模拟/滑尺
值得注意的问题
没有进度条或完成感:什么时候结束!这是人类行为的基本规律。我们需要知道我们在哪里以及下一步要去哪里。如果您的调查没有进度条,请为可怜的参与者提供一些进展感,即使在整个调查中散布鼓励的话,让他们知道调查最终会结束。
激励措施:支付合适的金额
参考链接:
- 15 Common Rating Scales Explained
- Classifying Survey Questions into Four Content Types
- 4 Classes of Survey Questions
[
