在刚结束不久的ACM CHI 2019会议中，微软研究院发布了《人工智能交互设计指南》（Guidelines for Human-AI Interaction）。本篇文档将呈现论文的主要内容，即18条可以应用的设计指南。这些指南的有效性通过多轮评估得以确认，包括49位从业者利用这些指南对20款热门AI产品进行的一项用户研究。结果显示，这份设计指南涵盖了许多交互场景，能够暴露我们的知识漏洞，从而指明接下来的研究方向。研究者相信，这一份设计指南可以成为从业者的有用资源，帮助人们更好地在产品中运用AI技术，同时也为人工智能交互设计指南的发展提供了帮助。

底部附有论文的链接，如有翻译不当之处，欢迎指出，谢谢！此外还有可供打印的设计指南卡片，每一条准则都对应着包含图片的具体事例，可操作性很强。

这份指南是如何得出的

这份指南历经四个阶段最终得到。在第一阶段，研究者从多个信息源中搜集了超过150条的设计推荐，然后合并为20条指南。在第二阶段，研究者们自行对这些指南进行了改良的经验评估(heuristic evaluation)，把数量从20条降至18条。第三阶段为开头引言提到的用户研究，49位从业者使用经验评估的方法来对这些指南的相关性(relevance)和清晰性(clarity)进行了评估。基于这些反馈，研究者对部分指南的措辞进行了适当修改，以提高其清晰性。在最后的第四阶段，对修改的版本进行专家评审(expert evaluation)，得到最终的指南。

18条人与人工智能的交互设计指南

指南被粗略地分为四类，对应着与用户的交互过程，表示应当在何时使用这些指南。同时，每条指南也附有一些应用案例。

最初的阶段 (Initially)

G1 讲清楚系统可以做什么 (Make clear what the system can do.)

帮助用户理解，这个AI系统能够做什么。
案例
[活动追踪，产品1] “展示所有追踪的指标，并且解释是如何做到的。这些指标主要是活动指标，例如步数、里程、锻炼时间，以及每日燃烧的卡路里数量。”

G2 讲清楚系统可以做得多好 (Make clear how well the system can do what it can do.)

帮助用户理解，AI系统犯错误的可能性有多少。
案例
[音乐推荐，产品1] “一些模糊陈述，比如’我们认为你会喜欢’。”

交互过程中 (During interaction)

G3 根据情境决定提供服务的时间 (Time services based on context.)

根据用户的当前任务和环境，决定何时行动或打断。
案例
[导航，产品1]“根据我使用这款应用的经验，它能提供及时的路线规划。因为地图会根据你的实际位置不断更新，导航总是很及时。”

G4 展示情境相关的信息 (Show contextually relevant information.)

显示与用户当前任务和环境相关的信息。
案例
[网络搜索，产品2]“搜索电影标题，会显示我附近的当日演出时间。”

G5 与相关社会规范匹配 (Match relevant social norms.)

考虑到用户的社会和文化情形，保证提供的服务与用户期待的相一致。
案例
[语音助手，产品1]“用不那么正式的方式和你交谈——说’okay’ 然后询问更多问题。”

G6 减少社会歧视 (Mitigate social biases.)

保证AI系统的语言和行为不会助长不良的、不公正的刻板印象和偏见。
案例
[自动补全，产品2]“在给待完成的文本提供建议时，自动补全的特性会不带偏见地清楚地提示两种性别（him, her）。”

出错时 (When wrong)

G7 支持快速调用 (Support efficient invocation.)

当用户需要时，让AI系统相关服务的唤醒或请求足够容易。
案例
[语音助手，产品1]“我可以说[唤醒词]来启动。”

G8 支持快速解除 (Support efficient dismissal.)

对于不想要的AI服务，用户能够快速取消或忽略。
案例
[电子商务，产品2]“这个功能不会太引人注目，在折叠层之下，也很容易滑过……能够轻松忽略。”

G9 支持快速纠错 (Support efficient correction.)

当AI系统出错时，确保能够简单地编辑、修缮或恢复。
案例
[语音助手，产品2]“每次备忘的请求被处理之后，我都能在显示的UI上看到自己可以编辑备忘录内容。下方的小字写着’轻击以编辑’，一个V型箭头也表明我选择这些文字之后会触发某些事件。”

G10 存在困惑时扩大服务范围 (Scope services when in doubt.)

致力于消除歧义，或者当系统不确定用户目标时，温文地对AI系统服务进行降级。
案例
[自动补全，产品1]“它通常提供3-4个建议，而不是直接自动补全。”

G11 讲清楚为什么系统这么做 (Make clear why the system did what it did.)

让用户有渠道了解AI系统这么做的原因。
案例
[导航，产品2]“这个应用选择的路线是最快的路线，在小字里有显示。”

随着时间推移

G12 记住最近的交互动作 (Remember recent interactions.)

维护短期记忆，让用户能够有效参考历史记录。
案例
[网络搜索，产品1]“（搜索引擎）会记住特定查询请求、特定措辞的语境，以便继续搜索（比如在搜索Benjamin Bratt之后显示’who is he married to’）”

G13 从用户行为中进行学习 (Learn from user behavior.)

随时间的变化，学习用户的动作，以使用户体验更为个性化。
案例
[音乐推荐，产品2]“我觉得这条适用，因为每个向歌单中加歌曲的动作都触发了新的推荐。”

G14 谨慎更新与调整 (Update and adapt cautiously.)

在更新、调整AI系统的行为时，控制一些扰人的变化。
案例
[音乐推荐，产品2]“一旦选了一首歌，应用就会更新下面的即时歌单，但是保留上面的不变。”

G15 鼓励反馈 (Encourage granular feedback.)

在和AI系统进行常规互动时，让用户能够提供能反映个人偏好的反馈。
案例
[电子邮件，产品1]“AI之前没有标记为‘重要’时，用户能够直接进行标记。”

G16 表明用户操作的结果 (Convey the consequences of user actions.)

直接更新状态或表明用户操作会如何影响AI系统将来的行为。
案例
[社交网络，产品2]“（产品）表明隐藏一个广告会导致将来广告相关度的调整。”

G17 提供全局控制 (Provide global controls.)

允许用户从全局定制AI系统的监控对象和行为模式。
案例
[照片管理，产品1]“（产品）让用户能打开位置历史功能，从而让AI能根据去的地方给照片分组。”

G18 提醒用户发生的变化 (Notify users about changes.)

当AI系统添加或更新功能时，通知用户。
案例
[导航，产品2]“（产品）为新特性提供了一些很小的内置教学标注。如果是需要吸引我注意力的新特性，那就是弹窗。”

指南的局限性

这套指南在10种产品类别里都得到了测试，因此可以说，指南在常见的AI系统中具有较高相关性。这套指南可以帮助评估现有产品以及一些新的设计想法。但在归纳这份指南时，研究者表示，在普遍性 (generality) 和细分性 (specialization) 之间有一些取舍，同时这份指南也不能涵盖所有类型的AI系统。例如，对于一些不使用图形用户界面的AI系统（例如基于语音的语音助手、运动跟踪），设计指南无法直接应用。

由于研究者倾向于使用可以通过观察系统界面进行直接评估的AI设计指南，一些宽泛的设计原则没有被收入。例如“建立信任感”，研究者转而采用一些有利于建立信任感的具体的、可观察的设计准则。研究者希望关注可以被观察到的属性，从而在让交互设计师日常中遇到此类取舍时，能够从设计指南里直接获得提醒。

研究者也表示，这份指南才刚刚触及到一些关于公平与更加宽泛的道德考量的话题。系统设计师们应当仔细地评估AI科技对人类和社会的影响。伦理相关的准则很难在经验评估中得到彻底的评审，进行评估的人可能会直接影响检测结果。

资料来源

论文链接：https://www.microsoft.com/en-us/research/uploads/prod/2019/01/Guidelines-for-Human-AI-Interaction-camera-ready.pdf
设计指南的可打印小卡片：https://www.microsoft.com/en-us/research/uploads/prod/2019/04/AI-Design-guidelines_041519.pdf
微软研究发表页面：https://www.microsoft.com/en-us/research/publication/guidelines-for-human-ai-interaction/

UX设计知识库

微软的人工智能交互设计指南