AlibabaDesign - 【主流体验模型】【易用度】体验度量专题｜易用度在企业级中后台产品的探索和实践 - 《设计资源学习整理》

引言
1.
中后台体验度量现状
2.
易用度指标
3.
易用度基线
结论

引言

作为产品设计者，经常遇到一个备受灵魂拷问的问题：怎么衡量我们设计的产品，用户体验是过关的？

今年，我们在内部中后台产品进行尝试，发现「易用度」可以作为合适的度量指标，并成功推广到 35 个产品，帮助PD、设计师、工程师等产品设计者去衡量产品体验现状，发现改进机会点。实践证明，易用度，相比满意度、尖叫度、NPS，更适合技术类产品的体验度量。结合用户行为数据，可以为用户画像、改进方向、运营策略提供更准确的决策依据。

1. 中后台体验度量现状

在公司内部，技术类产品种类繁多，有很大一部分是开发、运维人员使用的中后台产品，且以从 0-1 阶段为主。由于这部分同学本身工作复杂度高，又必须依赖内部产品来完成，所以长期以来“简单易用”成为大家追求的产品体验标准，他们也把“如丝般顺滑”作为终极目标。但现实情况是，上手门槛高是使用技术类产品最大的痛点。

对于前台业务的设计者，经常会使用「人+钱」，也就是「流量+付费」来衡量产品效果。通过成功率、转化率等指标，可以快速看到用户行为上的反馈，来指引后续优化。但对于技术类产品，尤其是强流程、工具型产品，很难找到一套契合业务特点的度量方式。理论上，使用「成本+效率」是比较合适的衡量维度，实际操作下来，找到设计和产品效果之间的因果关系，并非易事。

我们做了一个内部调查，发现产品设计者经常容易遇到这些问题：

体验度量是一个绕不开的话题。天猫、阿里云、华为、京东都有尝试提出解决方案，但没有统一的衡量维度。
设计方案与产品的市场反馈，需要一个可以解释关联关系的抓手，这对迭代方向的指引至关重要。
产品团队逐渐重视用户用户，但缺乏有说服力的指标。

业界在体验度量上的方案，大致分为 3 个派别：

客观衡量法：通过数据埋点监测用户行为数据。例如经典的 PULSE 模型，还有大家熟悉的运营指标，活跃用户数、留存率、ARPU、LTV等等。这对于还未商业化、用户基数少的产品不适用。
主观衡量法：收集用户主观打分。经典的满意度、尖叫度、NPS，可用性测试量表（如SUS），美国客户满意度指数ACSI。
主观+客观衡量法：把用户行为数据和主观打分结合起来，多数用归一化方式得出一个总分，把分数划分成不同档次作参考。Google 经典的 HEART 模型，内部的 PTECH 模型，阿里云 QoUE 模型，华为云的用户体验模型。

在掌握了这些信息之后，我们在内部的技术类产品上，进行了一轮新的探索。经过半年时间的试点，结合业界的解决方案、内部产品的业务特性，我们最终选择主观衡量法，并使用「易用度」这个衡量指标。

2. 易用度指标

_
易用度，英文 Customer Effort Score ，简称「易用度」，也有译成「费力度」，指的是用户使用某个产品/服务来解决问题的难易程度。目的是消除或减少用户使用产品过程中的障碍。**

该定义来自 2010年《哈佛商业评论》发表的文章《Stop Trying to Delight Your Customers》。2013年，Gartner 子公司 CEB 发布易用度2.0版本的测量方法，定义为“解决问题的难易程度”（make it easy to handle my issue）。

它的源头可以追溯到美国用户研究专家 Jeff Sauro(2009)提出的单项难易度问卷（Single Ease Question，SEQ），在可用性测试之后，用户需要对一个问题进行打分，问法是“整体上，这个任务是非常困难-非常容易（7分制）”。

为什么说「易用度」更适合技术类的产品？主要基于技术类产品的三大特点。
【主流体验模型】【易用度】体验度量专题｜易用度在企业级中后台产品的探索和实践 - 图1

衡量维度

总体指标
易用度：使用产品完成工作的容易程度。

影响因素

主要因素：产品及设计给用户操作带来的复杂度，我们称之为「基础体验」，包括帮助引导、功能入口、概念术语、任务流程、操作反馈。
次要因素：用户特征对使用易用度的调节作用，也称之为「调节因素」。不同特点的用户，会影响易用度分数，包括操作熟练度、先验知识、行为习惯。

【主流体验模型】【易用度】体验度量专题｜易用度在企业级中后台产品的探索和实践 - 图2

量表开发

大家肯定要问，这些影响因素是怎么确定的，如何证明它们的合理性？这就要提到量表开发方法，基本上可以分为几个步骤：

step1.理论借鉴
从相关领域查找经典量表，站在巨人的肩膀上，经过实践检验的量表更可靠。我们首先从 15种国际可用性测试量表中借鉴，抽出了一些关键的衡量维度。另外，易用度创始人Matt Dixon（2014）在《the effortless effort》书中，总结了在客户服务场景，费力的关键因素：

信息分类不恰当，反复描述问题（82%）
需要多次求助（62%）
帮助指引不清晰(59%)
找不到相关入口，频繁切换沟通渠道（59%）

step2.实践总结
我们盘点发现，技术类产品，绝大部分属于工具型产品，强调任务流程，也是用户痛点集中的地方。汇总多条业务线近1年的调研结果。除了功能、性能问题外，根据对完成任务的阻碍程度，无论是0-1阶段，还是1-N阶段，高频体验问题分布都集中在5个维度：

帮助引导
操作反馈
任务流程
概念术语
功能入口

【主流体验模型】【易用度】体验度量专题｜易用度在企业级中后台产品的探索和实践 - 图3
step3.数据分析
通过整理归纳的影响因素，需要经过信效度验证，才能有说服力。简单来说，信度就是“可信与否”，指的是结果的一致性、稳定性及可靠性；效度就是“命中与否”，指的是结果反映所想要考察内容的程度。通过统计学的探索性因子分析，验证性因子分析，我们确定 5 个维度可以有效测量易用度分数的变化。详细可查阅《如何找到影响用户体验的关键因素？》。

与满意度、尖叫度、NPS的区别

从易用度-满意度-尖叫度-NPS，是一个用户预期的渐进变化。从中可以看出，易用度更关注的是基础体验，也就是“简单好用”。
【主流体验模型】【易用度】体验度量专题｜易用度在企业级中后台产品的探索和实践 - 图4
为什么易用度相比其他指标更适合技术类产品呢？主要有 3 个原因：
1.内部试点发现，满意度无法准确衡量技术类产品体验

满意度不能很好衡量真实体验，分数虚高。我们在一些产品上，同时使用「易用度」和「满意度」作为总体指标，发现 43% 的用户满意度评分，高于易用度评分，可以理解为“产品我满意但不好用”。此外，易用度分数与满意度分数相关性高达0.77，具备很高的可替代性。
易用度更接近用户真实体验。对任务难易程度作出评价，用户在判断时会更直接，考虑使用过程中付出的脑力、时间等成本。对满意度作出评价，除了考虑产品本身的易用性，内部用户还会考虑其他主观因素，例如：
1. 合作关系：你是研发，我是用户，担心给你满意度打低分了，之后就不满足我的需求了。
2. 中庸倾向：满意度调查，已经是人尽皆知的评分，国人都倾向于打中上。
3. 评价范围：易用度问的是完成工作的容易程度，范围更小，用户评价的时候更聚焦。满意度问的是整体是否满意，范围更大，用户会综合考虑很多因素，例如上面提到的服务支持、上下游协作、需求响应等等。

2.行业实践表明，易用度比 NPS 更能预测用户留存和成本变化

易用度更能预测用户留存。《哈佛商业评论》（2010年）发表易用度时，调研7500多名用户，数据显示易用度低的客户，94％的有复购意愿，88％表示会增加支出，仅1％表示会对公司持负面态度。Garter（2013）发布报告，基于49000多名用户数据发现，易用度分值从1分提升到5分，可以使用户忠诚度提高22%。Oracle（2015）发布服务云易用度白皮书发现，当用户表示使用产品付出了更少的努力，忠诚度提高18%。相反，从满足用户预期到超出用户预期，用户忠诚度的变化并不明显。
易用度更能预测成本变化。Gartner（2019）对100+公司、12.5w用户的调研发现，易用度从高分到低分，可以降低37%的成本。

3.行业实践表明，尖叫度更适合成熟度较高的产品类型

目前在市场上，至少在国内，ToB 产品没有达到饱和，定位也各有不同。在企业用户心中，并没有足够清晰的心智和经验去判断。例如企业微信和钉钉，基本上很少有用户会同时使用这两个产品，那用户就无法准确评价二者的好坏。
更关键的是，很多 ToB 产品，用户多数是被动接受使用的，极少有选择余地。普遍的高技术门槛，也把他们尝试的意愿和可能性大打折扣。

优劣对比

对比满意度、尖叫度、NPS指标，易用度的优势在于：

关注用户完成任务过程中的阻碍，重视基础体验；
适合去度量特定的用户接触点和任务流程，以便了解用户解决问题的难易程度。

劣势在于：

对于分数过高或过低的情况，没有通用的基线，需要区分行业、产品类型、产品复杂度来衡量分数是否合格；
侧重基本体验，无法衡量用户的总体满意度。

【主流体验模型】【易用度】体验度量专题｜易用度在企业级中后台产品的探索和实践 - 图5

3. 易用度基线

经过半年的实践，我们采集了 35 个技术类产品的易用度，根据产品类型、产品阶段来区分。结合内部试点和行业调研，我们把技术类产品的易用基线，设定为 5.5 分。主要发现：

产品类型越复杂，易用度越低。试点产品中，ToC 产品易用度均值 5.46，ToB 产品易用度均值 5.32，ToD 产品易用度均值 5.07。
产品阶段越早期，易用度越低。试点产品中，0-1 阶段的产品易用度均值 5.09，1-N 阶段的产品易用度均值 5.28。

内部实践

如图所示，易用度有很好的区分度，不同产品类型的不同产品阶段分数呈现出差异性，我们可以根据这个数据，去评估自己的产品所在位置。
【主流体验模型】【易用度】体验度量专题｜易用度在企业级中后台产品的探索和实践 - 图6
为什么总体上选择 5.5 分作为“易用”标准？

我们在这 35 个产品上进行易用度的尝试，最终收集了 4000+ 问卷数据，得出了技术类产品的体验基线：

总体均值 5.07 分，中位数 5 分。具体分布如图所示，认为“比较容易”（5-7分）的用户占 69%。
但由于内部的技术类产品，大多处于 0-1阶段，以现在的状态作为“易用”基线，显然不合理。

【主流体验模型】【易用度】体验度量专题｜易用度在企业级中后台产品的探索和实践 - 图7

业界标准

因此，我们需要结合业界的实践作为参考。我们收集到 2 家用户研究领域的老牌公司 Nicereply 和 HotJar 的数据。Nicereply 是一家咨询公司，它服务的对象既包括 C 端用户，也包括 B 端用户。HotJar 是一家专做用户行为监控的公司，它服务的对象主要是 C 端用户。因此，我们倾向于采纳 Nicereply 发布的基线 5.5 分，作为参考。

Nicereply 公司在2018 年发布的易用度 benchmark（链接），基线为 5.5 分。
HotJar 公司在 2019 年发布的易用度 benchmark（链接），基线为 6.09 分。

【主流体验模型】【易用度】体验度量专题｜易用度在企业级中后台产品的探索和实践 - 图8

分析思路

很多设计者会想，不就是一个问卷嘛，能发挥多大的作用？实际上，当问卷数据+用户行为数据，它将发挥更大的价值。

现状描述：对产品当前的功能、体验、性能的在用户心中的水位进行摸底，通过数据和主观反馈找到原因。
对比差异：技术型产品往往有多个角色共同使用，并且有上下游协作关系，可以通过问卷和数据发现不同角色的偏好，找出差异化的改进方向。
影响关系：当发现某些模块用户评价低时，需要下钻找到最相关的影响因素，这时需要用到相关分析，找到此消彼长或相辅相成的变化关系，以及用到回归分析，找到可能的因果关系。
聚类分析：结合问卷数据和用户行为数据，我们可以对典型用户进行分层，也就是我们通常说的“用户画像”，可以结合经典的 RFM 模型，找到高频、忠诚、高付费且评价好的用户。

【主流体验模型】【易用度】体验度量专题｜易用度在企业级中后台产品的探索和实践 - 图9

现状描述

以某个技术类产品 A 为例，通过现状描述，可以发现低分人群抱怨的问题集中在哪里，提出问题优先级排序。
【主流体验模型】【易用度】体验度量专题｜易用度在企业级中后台产品的探索和实践 - 图10

对比差异

通过对比差异，把用户根据人口学、行为特征进行单维分类，与易用度分数做交叉分析，找出人群之间的差异，有针对性改进。
【主流体验模型】【易用度】体验度量专题｜易用度在企业级中后台产品的探索和实践 - 图11

影响关系

通过影响关系分析，可以找到影响产品 A 易用度分数的主要原因，也就是用户为什么觉得好用/不好用。
【主流体验模型】【易用度】体验度量专题｜易用度在企业级中后台产品的探索和实践 - 图12

聚类分析

通过聚类分析，结合问卷数据和用户行为数据，可以发现典型人群，制定差异化的运营策略。
【主流体验模型】【易用度】体验度量专题｜易用度在企业级中后台产品的探索和实践 - 图13

现象与洞察

在 35 个技术类产品上的实践，我们发现了一些常见现象和经验性的洞察，它并非都是普适的，却有很高的参考价值。
【主流体验模型】【易用度】体验度量专题｜易用度在企业级中后台产品的探索和实践 - 图14

结论

基于内部技术类产品的体验度量实践，我们得出以下结论：

实践证明，易用度指标衡量技术类产品更有效。技术类产品降本增效的商业目的、降低技术门槛的用户诉求、流程复杂上手难的痛点，决定了体验度量要关注基础体验。满意度、尖叫度、NPS去衡量都不太准确。
易用度的衡量维度，包括 5 个部分的基础体验。即帮助引导、功能入口、概念术语、任务流程、操作反馈。
结合内部试点和行业调研，我们把技术类产品的易用基线，设定为 5.5 分。当前内部技术类产品的易用度基线是 5.07分，行业技术类产品的易用度基线是 5.5 分，产品类型（ToC/ToB/ToD）、产品阶段（0-1阶段，1-N阶段）也会有所差异。
结合行为数据，易用度可以进行描述、分类。使用现状描述找出低分人群的高频问题，使用对比差异找到多角色的不同诉求，分析影响关系找到影响易用度的主要因素，结合用户行为数据进行聚类找到典型人群。