体验设计价值与业务价值的强关联，是其真正的价值体现，对于像阿里妈妈这样的商业化产品更是如此。用户体验不是主观的艺术，它有一套科学的、可度量的设计方法和策略。体验设计的价值是更好的实现产品价值、用户价值、商业价值、社会价值的交付。
我们的体验度量体系主要用于度量和管理阿里妈妈全场景的用户体验,支撑客观和主观体验评测体系,通过客观侧的平台规范,用户行为分析,性能,体验改进效能,主观侧的易用性,满意度等多个维度,实现对各BP用户体验质量可度量,可监控,可分析,可验证,支撑各BP的用户体验提升工作。

Part.01 用户体验度量体系建设

1. 什么是用户体验度量？

在《用户体验度量》一书中，作者：Tom Tullis & Bill Albert“给出的定义：
用户体验度量”是建立在一套可靠的测量体系上: ，使用同一类的测量手段对事物进行测量时，得到的结果是可以相互比较的，所有用户体验度量都是可观测、可量化并以数字的形式表示出来的。
简单来说，就是通过一套可靠的测量体系，量化用户体验的过程。

2. 为什么我们需要搭建用户体验度量体系？

2.1 现状和遇到的问题

设计师在日常的工作中会遇到各种各样的问题，会面对各种各样的质疑，比如“我觉得这次设计没有竞品好”，“你做了这么多对产品有什么影响”，“我觉得这次主要是设计的问题才导致这样”，“我觉得这个优化方案没有之前好”等等，却又无力反驳，进而会导致“自己也不知道在忙什么”，“也不知道自己做的到底有没有价值”。

这些综合起来其实都是设计师面临的如何进行价值自证的问题，因为没有明确衡量设计的标准。

如果不能获得用户可量化的反馈结果，就很难谈有改进迭代的效率
如果体验设计不能很好的被证明，就很难谈设计存在的价值
如果体验设计价值不能很好的被体现，就很难规避“某些”质疑

在业界中，已经衍生出来多种体验度量方法，比如阿里云UES，蚂蚁的PTECH，和指数，谷歌的HEART模型，以及包括像美团、华为等都在去做B端的体验度量体系。那对于我们阿里妈妈来说，我们也需要一套完整可靠的体验度量体系。

2.2 用户体验度量的价值

建立用户体验度量体系从本质上说，就是把用户体验从一个抽象的到具象的表达，从玄学到科学，从定性到定量，在追求“数字化”的现在，也能够让“用户体验数字化”。

用户体验度量是设计价值和业务价值之间的桥梁和佐证。同时也会对设计价值和业务价值在不同的阶段进行赋能。
从设计价值上来说，从低维到高度。

首先是对单一设计师的赋能，在有一套明确可靠衡量设计标准的时候，那么对设计师来说，在设计中能够去规避一些不必要出现的错误，设计后的自查和复盘也都会有明确的导向，让设计师能够建立起来多维度的衡量标准赋能设计师价值导向的思维模式，同时这也是阿里对设计师的职能要求。
其次，就是团队赋能，会给设计团队沉淀出一套可靠的用户体验度量体系以及方法论，也会让很多产品工具化，比如规范自查工具，数据看板，问卷系统等。
最后，那就是对阿里妈妈产品整体的体验管理，现代管理学之父彼得·德鲁克说：“如果你不能很好地度量它，也就无法有效地管理它”，最终体验度量体系是希望能够对阿里妈妈产品实现可度量，可监控，可分析，可验证，从而提升各个BP的体验工作。

从业务价值上来讲，一方面是产品体验管理同时也是产品迭代的重要依据，另一方面那对业务价值的挖掘就是从单一维度到符合维度的价值挖掘。

3. 如何建立体验度量体系？

“用户体验度量”是建立在一套可靠的测量体系上: ，使用同一类的测量手段对事物进行测量时，得到的结果是可以相互比较的，所有用户体验度量都是可观测、可量化并以数字的形式表示出来的。
对于任何一个复杂的产品系统，我们要量化的表达出用户在产品各个场景中触点的体验，那么必须是有一个科学的推理过程。从度量体系的的搭建，度量的方法，指标的计算，以及最终体验度量指标的监测和使用，都有每个阶段对应的特征以及方法。对于建立体验度量体系，我们总结出来最重要的四点:

1.搭建合理的用户体验度量体系。要保证大的构建体系的有效度，各个维度内容的有效度，以及准则效度，必须是可信且有效的；
2.枚举（穷举）体验的度量的方法。在枚举各种体验度量方法的同时，比如问卷，数据埋点，专家走查，工具化测量等，指标必须是可测量的；
3.科学的指标计算方法。比如加权方程组，单一求和，a因子系数等，指标必须可量:化；
4.体验度量指标的合理使用。体验度量指标必须是可持续观察、跟踪以及可优化，指导产品体验的提升。

3. 寻找度量用户体验的核心指标

我们需要寻找和用户体验关联的商业产品核心度量指标，并且在这个过程中要考虑如何选择，以及如何使用。
NPS，CSAT，CES是目前用户体验评估中业界最常引用和认可度最高的几个关键指标。

3.1 NPS（净推荐值）

NPS确实是一个更有魅力和吸引力的指标，不过它更侧重于用户对产品的综合评价，尤其像阿里妈妈这类的广告业务，NPS其实更多的是和业务强相关，而我们所关注用户体验度量只是其中的一部分。而控制和分离变量，是一个科学的度量系统最基本的要求,我们要考虑的是我们能不能把体验指标从NPS里面剥离出来，以及如何剥离？目前来看不太现实，但是它完全可以作为我们一个衡量体验的而且效果不错的辅助指标。

3.2 CAST（用户满意度）

CSAT是衡量用户满意度的指标，问题相对比较灵活，可以根据不同的产品，不同的场景，不同的业务流程都可以嵌入不同的满意度调查问卷，所以CSAT是我们衡量用户体验的第一个核心指标。

3.3 CES（用户费力度）

CES可能不是衡量用户忠诚度和满意度的最佳指标，但是是衡量服务质量的最佳指标，CES是用来衡量产品服务体验的难易程度，换句话讲，就是易用性的评估。

3.4 如何使用NPS、CSAT、CES

NPS更侧重于用户对产品的综合评价，尤其像阿里妈妈这类的商业化产品，NPS其实更多的是和业务强相关，而我们所关注用户体验度量只是其中的一部分。我们要考虑的是我们能不能把体验指标从NPS里面剥离出来，而控制和分离变量，是一个科学的度量系统最基本的要求。
CSAT相对比较灵活，即可以度量用户对于产品的整体满意度，也可以度量产品各个触点的满意度，业务多个场景可以做横向对比。
CES是用来衡量产品服务体验的难易程度，换句话讲，就是易用性的评估。

4. 业界主流的用户体验度量方法

在业界三种主流维度的体验度量体系中我们应该如何选择？我们的体验度量的差异化在哪儿，以及如何改进？要解决这个问题，我们第一步要去做的就是站在巨人的肩膀上，深入了解业界各种经典的体验度量的模型和方法论。

4.1 客观评测维度

例：AARRR模型，PULSE模型，AIDMA模型，AISDALSLove模型，AISAS模型等等。

通过数据埋点监测用户行为路径并进行分析:
1.成本较高，全面具体的分析需要有数据分析平台的支撑；
2.用户基数少的产品不适用；
3.对设计师数据洞察力有较高要求；
4.分析报告较为依赖平台工具的本身质量。

4.2 主观评测维度_15种国际经典可用性测试量表

例：整体评估问卷：于完成一系列任务场景后，对产品或系统整体的感知可用性测量。
目前使用较广泛的有：SUS（System Usability Scale）QUIS（Questionnaire For User Interaction Satisfaction）CSUQ（Computer System questionnaire）SUMI（Software Usability Measurement Inventory）PSSUQ（Post-Study System Usability Questionnaire）UMUX, Usability Metric for UserExperienceUEQ（User Experience Questionnaire）PSIUS(Pictorial Single-Item Usability Scale）
任务评估问卷：每完成一个场景任务，让用户对该任务进行感知可用性测量。
ASQ（After-Scenario Questionnaire）SEQ（Single Ease Question）SMEQ（Subjective Mental Effort Questionnaire）ER（Expectation Ratings）UME（Usability Magnitude Estimation）
网络感知可用性评估问卷：网站感知可用性评估问卷：在网络开始流行时，出现了更有针对性的评估网站感知可用性的问卷。WAMMI（Website Analysis and Measurement Inventory）SUPRQ（Standardized Universal Percentile Rank Questionnaire）。

通过收集用户和专家的主观反馈进行分析和打分
1.对问卷本身的问题质量要求比较高；
2.每个人的认知的心智模型是不一样的，所以主观评测的准确性取决于样本是否有代表性；
3.为了相对准确，一般会采用用户和专家评测，然后进行加权，加权的算法并没有一个统一的标准。

4.3 主观&客观评测度量

结合用户行为数据和主观打分，通过一定的加权方程组得到一个总分。
HEART模型：HEART指标体系基于PULSE体系，由愉悦感、参与度、接受度、留存率和任务完成率5个宏观维度组成，不同产品可以根据需求从微观角度进行指标细分。
和指数：“和指数”评价体系依托运营商大数据资源，通过用户调研和专家测试等调研方法对17个指标展开评测。
PTECH模型：蚂蚁金服体验度量框架“PTECH”服务于企业级产品，该框架通过马斯洛需求金字塔理论推导出用户体验需要满足的5个层次，分别对应度量框架的五个维度，做到了定量与定性全覆盖。
UES模型：阿里云根据 B 类技术产品特性，在多个维度中评估和挑选，重新思考定制，设计了 UES 模型的五个维度，易用性，一致性，满意度，任务效率，性能。

5. 搭建我们的用户体验度量体系

在我们了解业界其它度量体系以及在我们日常工作中应用我们自己度量体系的同时，我们给出了我们对于用户体验度量体系的定义。
用户体验度量体系：用于度量和管理阿里妈妈全场景的用户体验,支撑客观和主观体验评测体系,通过客观侧的平台规范,用户行为分析,性能,体验改进效能,主观侧的易用性,满意度等多个维度,实现对各BP用户体验质量可度量,可监控,可分析,可验证,支撑各BP的用户体验提升工作。
在业界度量体验的各个模型中，针对不同业务，不同场景，不同切入点都有不同的指标。但是总结下来，无论划分的维度是什么样的，无异于和用户态度、用户行为、系统表现相关。那么在这为基础上我们新增了两个维度，平台规范遵循度以及体验改进效能。
平台规范遵循度：平台或业界有为了提升体验而明确要求的，比如设计规范，产品性能表现等。无论是最开始建立在尼尔森十大原则上衍生的启发式评估，还是根据自己业务建立了多个维度的一致性评测体系，用于设计上线前后的走查，都是设计在为平台体验赋能。系统系能表现主要依赖于开发侧。
体验改进效能：度量体验指标的核心不仅仅是需要查看指标和洞察问题，更重要的是洞察出的体验问题需要及时的跟踪反馈，形成体验闭环，为业务赋能

Part.02 设计规范如何度量

1. 建立完整的规范体系建设

对于用户而言，体验一致性的提高可以降低用户的操作时长及错误率，降低学习成本，理解成本，提升用户的满意度，对于产品设计及开发而言，体验一致性可以提升开发效率，稳定性和可延续性更高。
所以首先我们期望在满足业务需求和遵循B类语言设计原则的基础上，建立完整的规范体系，保证整个全局设计规范内容的系统性，完整性，易用性以及延展性（改进的方向）。

2. 设计规范管理和运作机制

如果不遵循规范那么会导致产品体验的一致性较差，研发效率较低，规范存在的意义变弱；
如果因为遵循规范，被规范条条框框限制的过于死板，好的设计创意和创新也会被埋没，设计师无法发挥自己的价值。
我觉得用孙过庭《书谱》里面的话，描述设计规范管理再合适不过。“至如初学分布，但求平正；既得平正，务追险绝；既能险绝，复归平正。初谓未及，中则过之，后乃会通。”初书者求平,就是要合乎法度,仅仅求其平正,既达到了平正的境界,又要追求险绝；险绝也能做到了,那又要回复到平正上来。设计规范也是如此，先求同，再去追求创新，然后再去优化设计规范，输出一些场景解决方案或者大颗粒组件等。

3. 设计规范的主客观度量

3.1 工具自动化监测

基于B类语言的设计规范，我们选取了最重要、最常用的组件、样式和模板以及使用规范作为客观物理层的规范衡量标准，使用工具化监测。

3.2 一致性量表

对于我们在遵循规范基础上保持创新的规范，我们内部设计师用对于设计师的一致性量表进行评估。

3.3 用户一致性评测

对于一些颠覆创新式的规范，那我们需要用户一致性评测以及设计师的一致性量表共同去评估。

4. 一致性量表

4.1 体验一致性的多个维度

当我们去穷举一致性并进行拓展，会发现有一致性被划分了有很多维度。原子级如颜色、间距、字体大小、图标等一致性、分子级如表格、输入框等一致性，页面级一致性，交互一致性、文案一致性、认知一致性、品牌一致性等等。

在一致性原则在划分这么多维度，即有主观侧的，又有客观侧的，我们要去做易用，清晰且高效的一致性度量量表，但面面俱到是没有质量且低效的。我们接下来，要去思考解决的就是去剥离出来哪些是现阶段易被度量，哪些是不易被度量的？穷举发散之后，那么我们要做的就是和我们的设计规范相结合，找到一致性重要且易度量的维度。

4.2 一致性的度量标准

Patrick Adamson将GUI的一致性分为了三个层面：物理层、行为层、认知层，同时指出物理层的一致性是最容易感知的。那么一致性度量量表最清晰，高效的解法，就是以物理层（B类语言设计规范）一致性为主，部分行为一致性和认知一致性为辅的度量标准。

4.3 一致性量表

一致性度量量表：基于B类语言的设计规范，以物理层（B类语言设计规范）一致性为主，部分行为一致性和认知一致性为辅的度量标准。我们选取了基础样式，基础组件，文案一致性，交互一致性作为重点衡量维度。

4.4 一致性的量表权重制定

a.组件使用频次：结合开发埋点，某一组件或者某一交互在多个业务场景使用频次；
b.影响力：组件上线使用中，用户和业务侧对某一组件影响力的评估；
c.设计自定义：不同的组件和视觉元素对用户的影响不同，设计内部进行权重评估。

Part.03 易用性量表与易用性数据指标建立

1.商业化产品易用性度量维度定义

我们首先参考了业界公认的，经过一定验证的易用性问卷体系。通过分析他们的量表问卷，可以得出不同体系的易用性维度和侧重点，主要会涉及以下几个方面：

有效性：功能满足用户需求；
易学性：帮助信息的寻找/理解/学习；
易用性：操作能够成功，且简单高效；
情感：使用感受愉悦或挫败；
满意度：使用意愿和满意度；

那是否以上这些易用性维度，就可以直接复用至商业化产品中呢？
其实不然，带着这样的疑惑，我们总结了在钻展上收集到的，用户经常询问的一些核心的问题，对这些问题对应的易用性维度进行分析。

会发现用户对于商业化产品的使用问题和体验痛点，主要集中在：

对概念/规则的认知理解
复杂功能的学习和熟悉过程
常用操作的效率

由此提出更适合我们自己的易用性度量维度，更简洁也更切入易用性的核心：由认知，易学，易用三个维度组成。以下是具体的细分维度和定义。

2. 主观度量方法：易用性量表

2.1 传统商业化产品客户共建的问题

开始接手钻展业务后，参加了三次由PD发起的客户共建会议，发现会议流程主要是单方面的向客户宣导新的产品理念，或者针对某个新功能收集需求建议。这样导致的会议结果是：

用户对产品理念被动接受，无法给出明确反馈；
反馈问题主要集中在功能需求层面，比如投放策略要求，算法效果期待等；
反馈用户数量多为天猫KA级别以上，在全量客户中样本占比量小；
负面反馈声音明显大于好评反馈

而我们设计师主要关注点在于具体的BP使用体验，比如客户能不能发现新功能？是怎么理解新概念的，他们的认知是否跟我们的预期一致？他们在投放过程中的操作是否顺畅，能不能容错？什么地方会有操作卡点？需要花费多少精力在常用操作上？这些实实在在的体验问题很难得到反馈。

2.2 传统的易用性访谈测试，虽有效却低效

于是在客户共建之外，由我们UED设计侧组织发起了一次快速易用性测试访谈，就是希望在平台改版的灰测阶段，快速发现新BP的心智和易用性问题，并能在正式上线前修改。
这次快速易用性试访谈，与运营同学合作，选取了6位客户，包括2位熟练使用钻展投放的老用户，和4位没有使用过钻展，但使用过其他BP的新用户。6位用户实际访谈时间8小时，而从测试前准备到测试完成结果输出，花费1周时间。一共发现了大大小小34个问题，并且在后续逐一进行了解决跟进。
不过需要考虑到，仅凭6名用户的易用性访谈测试，但体验问题不一定找全了。而且由于样本量较少，得到的评估结论可能会有一定偏差。而增加样本量，势必更为耗时。
因此这种传统访谈测试的方式，确实能够挖掘一定深度的问题，是切实有效的；但若想持续做下去，会需要耗费大量人力和时间成本，是低效的。

2.3 更为高效的易用性量表

相较于小范围的面对面访谈，更大的数量级的量表问卷数据，比如达到百份以上，易用性度量的结果会更令人信服。
我们参考了业界较为广泛应用的15种经典易用性量表。
根据这三个维度，我们可以定义出相应的易用性标准量表问卷。也就是这6个核心问题。
在这个基础上，我们也可以增加不同的调节因素，作为问卷的一部分，比如用户的角色，熟练度等。
因为这些影响因素，不同用户对量表中各个维度的打分也会不同。

计算方式比较简单，对各个维度的分数进行加权取和，x y z为加权值，可以根据不同功能模块的易用性侧重点进行调整。初始值默认是各1/3。

3.度量工具之一：页面内嵌入式调研组件

为了提高量表问卷的反馈效率，我们还在最近的钻展调研中，应用了新的页面嵌入式反馈组件。
该前端组件支持用户在页面中直接表达看法，包括5星级满意度评价，也包括简洁的点赞点踩。同时组件也支持在点击之后跳转至调研问卷。这样既能收集到满意度，同时也能进行下一步问卷调研。
组件适用的场景比较宽泛，可以用来调研黑盒算法功能评价，诊断工具是否准确，新功能上线时也可以了解用户对该功能的看法。而其获得的数据有点赞点踩的直观满意度数据，也配合问卷链接或者UXRadar，也能收集问卷的反馈数据。

目前的首日投放的数据表明，相较于传统的在页面上放一个调研问卷的提示或者链接，这种嵌入式的反馈组件，在收集反馈的效率上更高，因为这种简单的点赞点踩的形式，用户更容易去表达他的看法。

4. 客观度量方法：易用性相关用户行为数据分析

在整个体验度量的大框架下，客观角度的度量，主要是数据分析。数据指标体系可以包括多个模块，例如平台性能、商业成效转化等等。
在指标体系中，平台易用性指标是结合了已有的易用性度量维度：认知、易学、易用，并根据用户行为路径前端埋点计算的针对性指标。

我们可以针对BP中的不同模块，进行易用性数据分析。
例如新建投放流程，是一个复杂的任务流程，由很多步骤组成，我们可以应用可用性的这些指标，比如单步跳失率，任务完成率，错误出现率等等来分析投放流程的体验是否顺畅。
也可以在此基础上，通过信息理解的指标，去分析各处的帮助信息是否传达给用户，是否有优化的空间。
当得到一个数据，该怎么来衡量体验的好与坏呢？
我们可以自定义数据的基线：

与已知的竞品对比
与功能本身改版前后对比
与其他BP横向对比

以上这些用户客观行为数据，是帮助我们发现体验问题的手段。比如发现操作任务完成率低，就可能需要考虑是否流程中有gap，导致用户很难完成。这些都可以计入我们的体验池，以待后续优化。
后续我们会将易用性量表，页面嵌入式反馈组件，数据分析指标，在钻展上run起来。逐步结合项目流程，把体验度量作为整个BP设计的不可缺失的一环。

Part.04 度量指标的计算

1.度量指标计算的难点

我们用户体验度量体系定义了多个维度，既有主观侧的又有客观侧的。每个维度都是可检测的，可度量的，那么每个维度就有对应的科学的指标计算方法。

由于整个大的用户体验度量体系包含了多个维度，而每个细分维度又会有多个对应的子项，每个子项又会有更为具体的分类。当度量到最小单元指标的时候，可能会出现成百上千个度量指标，而这么多度量指标肯定是不易于监测和管理的，那我们首先要做的就是度量指标的回收以及总结归纳,因为其结果质量直接关系到模型效果和最终结论。

2.度量指标计算的合并

所以我们面临的第一个问题就是，各个维度的度量指标能否合并成到一个分数中？单个维度细分的多个子项能否合并成一个分数？如果能合并，那么应该如何合并?

各种度量指标能否合并是统计和测量一直“辩论”的问题。而其中认为不能合并的原因主要是：
1.因为任何分数汇总(中位数,平均数或者其他复合分数)都会损失重要的信息；
2.对于影响到产品设计或系统设计的可用性研究，如果用一个复合测量值来测试，发现产品之间有显著差异。那么实际差异究竟是什么？接下来，你只能对组成复合值的成分指标分开测试。

而对于我们而言，我们支持需要去合并度量指标，主要原因是：
1.在面对大量的度量指标时，这样更易于监测和管理；
2.相对于单一维度度量指标，复合指标可靠性高。将复合分数的优势是测量的可靠性有了增长，增长的量取决于复合成分的相关度。作为2009年，Sauro和Lewis发现可用性度量指标之间的强相关性，如任务时间、完成率、出错数、任务满意度、和整体满意度；
3.而合并度量指标后，我们并非完全依赖于复合指标，后续的分析迭代优化依然依赖于各维度的指标，所以也并没有丢失任何信息

3.指标度量计算的多元化场景

那么在整个度量体系中，涉及到的指标计算场景是多元化，且完全不同的。比如：

3.1 量表本身的质量评估

Nunnally对标准化问卷质量的测试指标主要就是信度,效度,灵敏度。
信度（测量的一致性）：评估最常见的方法就是α系数法，这是一种内部一致性测量。
效度（目标属性的测量）：问卷效度是其要测量内容的程度，可以通过使用Pearson相关系数来评估效标效度；内容效度通常使用因子分析进行评估。

3.2 单一维度复合指标的计算

单一维度复合指标的计算。比如：一致性的计算，易用性的计算，系统性能的计算，满意度的计算，用户行为指标计算等。

3.2.1 一致性度量复合指标的计算

为了一致性度量指标的准确、客观，我们在B类语言设计的基础上，结合开发数据埋点，用户反馈搭建了一套一致性度量体系。
该体系由以下2个要素构成：
1.基于B类语言的设计规范，以物理层（B类语言设计规范）一致性为主，部分行为一致性和认知一致性为辅的度量标准。我们选取了基础样式，基础组件，文案一致性，交互一致性作为重点衡量维度。
2.权重的制定。
a.组使用频次：结合开发埋点，某一组件或者某一交互在多个业务场景使用频次；
b.影响力：组件上线使用中，用户和业务侧对某一组件影响力的评估；
c.设计自定义：不同的组件和视觉元素对用户的影响不同，设计内部进行权重评估。

3.2.2 易用性度量复合指标的计算

通过收集易用性量表，来获得用户对平台整体易用性的主观反馈，主要分为三个维度，认知，易学和易用。
每个维度对应两个量表问题。而将每个题目获得的用户评分均值，通过一定的加权方式计算，将得到相应的维度的易用性分数。
同时在这个基础上，我们在量表的投放中，也可以增加了不同的调节因素，作为问卷的一部分，比如用户的角色，熟练度等。因为这些影响因素，不同用户对量表中各个维度的打分也会不同。
那么权重制定，需要设计师根据当前评估的功能模块的特点进行自定义制定：

依据功能模块的易用性侧重点（例如：若侧重于任务流程的易用，则易用这个维度需要更高的权重）
依据量表中给出的调节因素（例如：该功能侧重于新用户快速上手，则量表中新用户的主观反馈分数权重会增加，同时认知和易学维度的权重也相应更高一些）
3.2.3 用户行为指标的计算
通过前端埋点获取用户行为，并根据行为数据的长期监控，帮助评估设计价值并发掘体验优化点。

对各BP的相似流程和功能制定统一的前端埋点规范，并结合易用性度量维度，搭建数据指标体系。
抽取北极星指标，直观反映易用性维度：从众多指标中选取一个或数个最核心、最容易直观反映用户行为的指标，作为该易用性维度下的“北极星”。

方便后续迭代的长久时间内，对指标进行跟踪和观察，同时，在计算具体的易用性分数时，也将给予该指标更高的权重。

将数据进行横向对比衡量并转化为分数：需要明确体验优劣的基线。基线确定的过程，需要进行多方面的对比，并不断修正。
1. 与功能本身，从时间维度/项目迭代维度，进行对比
2. 与各BP相似流程和功能进行横向对比
对北极星指标和其他指标进行分权重的综合计算。

Part.05 体验度量体系的沉淀与落地
我们用户体验度量的最主要的目的就是通过指标去发现一些问题，便于管理和优化，一个指标的值影响因素一定是多个维度的，是很难完全从业务场景中剥离出来的，所以一定要把重点放在推动得分的因素上，如何预估风险，发现问题并进行体验优化，而不是数字本身，主要目标应该始终是倾听，分析并根据客户反馈采取行动。
基于这个初心，我们沉淀与落地出来的有：
专业侧，将产品体验全貌具象化的用户体验度量报告；
平台侧，落地在数据小站的便于监测和管理体验度量看板；
方法论，沉淀出度量监测和分析的一套方法论；
业务侧，为业务赋能。
1. 体验度量报告
我们对产品当前的系统表现，易用性，一致性等多维度进行度量，可以对产品现状有一个较为清晰明确的认知，输出产品整体的体验度量报告。并通过下钻找到相关的影响因素进行分析，帮助产品的体验管理和持续性优化。

2. 体验度量看板
我们在数据小站上建立了体验度量看板，让业务方可以随时了解产品体验的薄弱项和改版前后的差异性，跟进体验问题和闭环，对产品的体验管理与监测。
3. 分析方法论
如果说体验度量报告和看板是得到一个数值，那么度量指标的应用并不仅仅是需要一个数值，而且需要将一个指标数值同另一个指标数值相比较。比较可能是将度量指标和统计基准比较，也可以将指标同另一个指标比较。
对于商业化产品的操作，新老客无论是使用场景还是操作反馈都可谓是天壤之比。所以我们在做对比时，是需要对新老客用户进行分群，然后再进行对比。那么我们结合我们的业务场景，得出了三种指标的对比应用场景。
3.1 与业界度量体系评分对比
结合业界的实践作为参考，我们的得分和各大度量体系发布的评分作为参考基准。各个细分维度的也有相对应的参考基准。但是由于阿里妈妈产品和其它B端，C端的产品形态的差异化，度量的维度以及计算方法的不同，所以我们只当参考。
3.2 以时间周期对比
以固定的时间周期做一次体验评测，因为各个维度的评测成本和影响力都不一样，所以具体的周期需要业务侧和设计师自己进行评估。
以新老版本迭代前后为评测的时间节点，将前后两次的指标进行比较，洞察趋势。
3.3 业务线之间对比
各个产品的评分做对比，同时也可以通过各个平台的指标定基准的中位数，这个过程不采用具体的数值表达，只做简单的区间分层，比如达标未达标。
4. 体验指标与业务场景结合的应用
在产品不同阶段，对应着不同的业务目标，业务策略以及度量指标，我们在新升级的广告营销指标体系DEEPLINK中结合业务场景梳理出来出了在产品各个阶段体验所关注的指标。同时，也总结出了在通用场景下所需要关注的用户体验过程指标予以参考。

🌟阿里妈妈用户体验度量体系