小米 #小爱同学 5.0# 人工智能 #语音助手# 科技 #AI @Eason 张 UED

前言

“让出行更美好” 一直是滴滴的初心和目标，作为体验设计团队也一直在利用手机的方寸之间去践行着。然而，我们的努力是否真的为用户带来了更好的体验？带来了多大的改变？

如何衡量这种改变，并有的放矢的去进一步优化？我们为此做了一系列探索：

1、有针对性、差异性、扩展性的体验监测

滴滴走到今天，围绕乘客其实已经做过许许多多的满意度、NPS 等研究，观测维度丰富而全面，但随之而来也存在一个问题：常规 NPS 观测囊括了乘客用车全流程，因此针对端上体验的观测难以做到深入和有针对性，而端上体验正是我们所关心的部分。于是，我们的探索将更有针对性，有差异性，且具备扩展性的开展：

滴滴：网约车体验的度量衡，用户满意度调研实操案例 - 图2

2、案头研究，初步确定监测维度

由于前人已经在线上体验研究方面有过许多积累，于是我们研究了不同时代、适用于不同类型产品的体验模型后，会发现：

“有用”、“有效”、“易用”这几个观测维度贯穿了互联网 1.0 到 4.0 时代，是不同时期，各类模型普遍都会涉及到的维度，具有较强的普适性、通用性；（引用文献见[1]-[3]）

滴滴：网约车体验的度量衡，用户满意度调研实操案例 - 图3

而到了互联网 3.0、4.0 时代，用户接受到的是一种端上 + 线下的混合服务，涉及交易的产品日益增多，用户体验的观测也需更加立体和多样。（引用文献见[4]）

滴滴：网约车体验的度量衡，用户满意度调研实操案例 - 图4

那再结合滴滴的业务特点及我们自身的诉求，我们将用户主观体验监测分为两大模块：

感知： 用户是否通过端上了解到了各式各样的功能 / 信息；

体验态度： 此处的除了引入常用的 “有效”、“易用”、“容错” 的内涵以外，还增加了“信息清晰度”、“美观性”这两个指标；

滴滴：网约车体验的度量衡，用户满意度调研实操案例 - 图5

3、维度初定，编制测量题目

考虑到测量题目需要具有扩展性，同时也不给用户过重的填答负担，测量题目的选择基本遵循这样几个标准：

题量适中，减少用户填答成本；

题型简单，填答不需过多思考；

语义简洁，对客体的指向性弱，仅强调客体特点或属性；

这样既可泛指使用滴滴 APP 的全流程，亦可在后续扩展性研究（针对某一具体环节或界面，采用同样维度进行测量时）中复用，避免语义变化带来的数据偏差。

感知模块： 仅简单询问用户 “您是否知道 / 听说过 xx 功能？”，用户仅需选择“知道 / 听说过” 或“不知道”即可；

体验态度模块： 我们初步将每个维度设置为 2~4 道测量题目，采用 Likert 5 级量表评分：1 分表示非常不同意，5 分表示非常同意，反向计分题则相反。

量表初步确定后，我们快速利用身边各行各业、年龄层次、性别的亲友进行了语义测试，以保证量表意义稳定、无歧义。

优化前后部分测量题目示例：

滴滴：网约车体验的度量衡，用户满意度调研实操案例 - 图6

此外，将上述量表编制成问卷时还增加了筛选题、地雷题（又称测谎题）、人口属性题，用于回收后清洗数据、样本加权、细分人群分析时使用。

4、分析数据，优化测量维度和题目

数据清洗： 任何问卷数据在进行信效度分析前，都需要清洗，清洗时至少需考虑 4 方面：

命中地雷题，如：“这道题目请选择‘一般’”，选择‘一般’以外其他选项的用户则剔除；

主客观不统一，如：投放的是网约车完单用户，问卷中报告自己没有完单的用户则剔除；

填答逻辑矛盾，如：各指标均填答非常满意，但总体填答非常不满意的用户则剔除，反之亦然；

填答时长异常，如：全部填答时长分布的首尾 1% 用户；

信度检验： 信度检验的方法有很多，此处我们主要采用了重测信度和内部一致性信度（Cronbach-α系数）来检验：

重测信度即将同样一份量表分别对 N 组同样的（或具有同样属性特征的）被试进行测量，观察 N 组被试的得分是否具有稳定性。本次量表得到的重测信度为 0.921，通常≥0.70 被认为较高；

内部一致性信度显示，当量表不包含反向计分题时，信度系数较高，因此我们剔除了反向计分题。

滴滴：网约车体验的度量衡，用户满意度调研实操案例 - 图7

注：① 一般认为 Cronbach-α系数≥0.7 时，内部一致性较高； ② 图中 “—” 表示此维度无反向计分题

效度检验： 此处主要采用了因子分析法检验工具的结构效度；

由于初定了 5 个测量维度，因此提取公因子时，暂定提取 5 个公因子，用以验证我们初定的 5 个维度及其测量题目是否科学有效。结果显示，提取 5 个因子，累计解释方差为 84.01%（一般认为 60% 以上可以接受，90% 以上非常理想）。

滴滴：网约车体验的度量衡，用户满意度调研实操案例 - 图8

提取 5 个因子时，因子载荷表

结果发现，提取的 5 个公因子在每个测量维度上的载荷与预设不完全一致：因子 1 在有效性、信息清晰度的测量题目上载荷均较高，而易用性这一维度的测量题目被拆分在两个公因子上（因子 2 和因子 5）这说明了 2 个问题：

① 提取 5 个因子时，有效性和信息信息清晰度之间的结构相比其他维度更为接近；

② 易用性涉及的 3 道测量题目，并不完全是测量的一个方向；

于是，我们尝试提取 6 个因子，结果显示：当提取 6 个因子时，因子 1-5 分别在原预设的 5 个维度上载荷较高，“易用性” 中则析出了因子 6。并且累计解释方差也更高，达到了 87.65%

滴滴：网约车体验的度量衡，用户满意度调研实操案例 - 图9

提取 6 个因子时，因子载荷表

5、度量工具的应用

经过了上述一系列语义测试、数据清洗、信效度检验，最终确定了通过 6 个维度及其测量题目来监测端上体验：

滴滴：网约车体验的度量衡，用户满意度调研实操案例 - 图10

以 2020 年 Q2 滴滴出行乘客端改版为例，同一时间对使用新旧版滴滴出行的两组属性同质的用户进行测试，很好的体现出了新旧版的差异性：

滴滴：网约车体验的度量衡，用户满意度调研实操案例 - 图11

总体上，对新版满意的用户比例更高：表示满意的人群上升了 5.6%；

分维度看，新旧版的得分差异也比较准确的映射了两版差异：

新版将顶导业务收起，改变了原有的操作习惯，初期用户不适应，易误操作、叫错车型，这点在新版易错性这一维度的得分上也有所映射，略有下降；

截止至发文时，Q3 的数据显示，经过了更长的适应期，用户逐渐找到了如何在误操作后返回到正确的路径上，因而容错性这一指标的得分略有了回升；

“至繁化至简”是新版设计的核心概念，设计理念旨在增强重要信息，让沟通有温度，于是在体验维度上表现为信息清晰度、美观性、有效性的用户打分均有所提升。

滴滴：网约车体验的度量衡，用户满意度调研实操案例 - 图12

结语

经过一段时间的实践观察，目前确立的维度和测量题目确实具有一定的敏感性：日常调研反映较好的方面，所对应的维度评分也较高，同时端上的改变也能一定程度的从评分中反映出来。但一个好的度量工具永远是随着产品、企业乃至时代的发展，不断迭代的，我们的度量工具也不会停下迭代的步伐。

文章来自：滴滴 CDX 创意设计中心 - 网约车设计

引用文献：

[1]陈童的博客 http://www.everyinch.net/index.php/ux_models_honeycomb/

[2]站酷https://www.zcool.com.cn/article/ZNjI1Nzky.html

[3]USE Questionnaire：Usefulness，satisfaction，and ease of use https://garyperlman.com/quest/quest.cgi?form=USE

[4]人人都是产品经理 http://www.woshipm.com/operate/633319.html

顺便关注我的视频号呀

滴滴：网约车体验的度量衡，用户满意度调研实操案例 - 图15
Eason 张 UED

小米 #小爱同学 5.0# 人工智能 #语音助手# 科技 #AI@Eason 张 UED

视频号

该团队更多体验设计干货👇

滴滴打车 - 地图设计原则

滴滴顺风车 - 设计体验新升级过程

粉丝福利：

公众号后台回复：“技能树、抖音、竞品分析、上瘾、iOS 资料、交互合集”任一关键词都可获取对应资料包滴滴：网约车体验的度量衡，用户满意度调研实操案例 - 图16

滴滴：网约车体验的度量衡，用户满意度调研实操案例 - 图17

别忘了「点赞」+「在看」哦！

滴滴：网约车体验的度量衡，用户满意度调研实操案例 - 图18