在刚结束不久的ACM CHI 2019会议中,微软研究院发布了《人工智能交互设计指南》(Guidelines for Human-AI Interaction)。本篇文档将呈现论文的主要内容,即18条可以应用的设计指南。这些指南的有效性通过多轮评估得以确认,包括49位从业者利用这些指南对20款热门AI产品进行的一项用户研究。结果显示,这份设计指南涵盖了许多交互场景,能够暴露我们的知识漏洞,从而指明接下来的研究方向。研究者相信,这一份设计指南可以成为从业者的有用资源,帮助人们更好地在产品中运用AI技术,同时也为人工智能交互设计指南的发展提供了帮助。

底部附有论文的链接,如有翻译不当之处,欢迎指出,谢谢!此外还有可供打印的设计指南卡片,每一条准则都对应着包含图片的具体事例,可操作性很强。


这份指南是如何得出的

这份指南历经四个阶段最终得到。在第一阶段,研究者从多个信息源中搜集了超过150条的设计推荐,然后合并为20条指南。在第二阶段,研究者们自行对这些指南进行了改良的经验评估(heuristic evaluation),把数量从20条降至18条。第三阶段为开头引言提到的用户研究,49位从业者使用经验评估的方法来对这些指南的相关性(relevance)和清晰性(clarity)进行了评估。基于这些反馈,研究者对部分指南的措辞进行了适当修改,以提高其清晰性。在最后的第四阶段,对修改的版本进行专家评审(expert evaluation),得到最终的指南。

18条人与人工智能的交互设计指南

指南被粗略地分为四类,对应着与用户的交互过程,表示应当在何时使用这些指南。同时,每条指南也附有一些应用案例。

最初的阶段 (Initially)

G1 讲清楚系统可以做什么 (Make clear what the system can do.)

帮助用户理解,这个AI系统能够做什么。
案例
[活动追踪,产品1] “展示所有追踪的指标,并且解释是如何做到的。这些指标主要是活动指标,例如步数、里程、锻炼时间,以及每日燃烧的卡路里数量。”

G2 讲清楚系统可以做得多好 (Make clear how well the system can do what it can do.)

帮助用户理解,AI系统犯错误的可能性有多少。
案例
[音乐推荐,产品1] “一些模糊陈述,比如’我们认为你会喜欢’。”

交互过程中 (During interaction)

G3 根据情境决定提供服务的时间 (Time services based on context.)

根据用户的当前任务和环境,决定何时行动或打断。
案例
[导航,产品1]“根据我使用这款应用的经验,它能提供及时的路线规划。因为地图会根据你的实际位置不断更新,导航总是很及时。”

G4 展示情境相关的信息 (Show contextually relevant information.)

显示与用户当前任务和环境相关的信息。
案例
[网络搜索,产品2]“搜索电影标题,会显示我附近的当日演出时间。”

G5 与相关社会规范匹配 (Match relevant social norms.)

考虑到用户的社会和文化情形,保证提供的服务与用户期待的相一致。
案例
[语音助手,产品1]“用不那么正式的方式和你交谈——说’okay’ 然后询问更多问题。”

G6 减少社会歧视 (Mitigate social biases.)

保证AI系统的语言和行为不会助长不良的、不公正的刻板印象和偏见。
案例
[自动补全,产品2]“在给待完成的文本提供建议时,自动补全的特性会不带偏见地清楚地提示两种性别(him, her)。”

出错时 (When wrong)

G7 支持快速调用 (Support efficient invocation.)

当用户需要时,让AI系统相关服务的唤醒或请求足够容易。
案例
[语音助手,产品1]“我可以说[唤醒词]来启动。”

G8 支持快速解除 (Support efficient dismissal.)

对于不想要的AI服务,用户能够快速取消或忽略。
案例
[电子商务,产品2]“这个功能不会太引人注目,在折叠层之下,也很容易滑过……能够轻松忽略。”

G9 支持快速纠错 (Support efficient correction.)

当AI系统出错时,确保能够简单地编辑、修缮或恢复。
案例
[语音助手,产品2]“每次备忘的请求被处理之后,我都能在显示的UI上看到自己可以编辑备忘录内容。下方的小字写着’轻击以编辑’,一个V型箭头也表明我选择这些文字之后会触发某些事件。”

G10 存在困惑时扩大服务范围 (Scope services when in doubt.)

致力于消除歧义,或者当系统不确定用户目标时,温文地对AI系统服务进行降级。
案例
[自动补全,产品1]“它通常提供3-4个建议,而不是直接自动补全。”

G11 讲清楚为什么系统这么做 (Make clear why the system did what it did.)

让用户有渠道了解AI系统这么做的原因。
案例
[导航,产品2]“这个应用选择的路线是最快的路线,在小字里有显示。”

随着时间推移

G12 记住最近的交互动作 (Remember recent interactions.)

维护短期记忆,让用户能够有效参考历史记录。
案例
[网络搜索,产品1]“(搜索引擎)会记住特定查询请求、特定措辞的语境,以便继续搜索(比如在搜索Benjamin Bratt之后显示’who is he married to’)”

G13 从用户行为中进行学习 (Learn from user behavior.)

随时间的变化,学习用户的动作,以使用户体验更为个性化。
案例
[音乐推荐,产品2]“我觉得这条适用,因为每个向歌单中加歌曲的动作都触发了新的推荐。”

G14 谨慎更新与调整 (Update and adapt cautiously.)

在更新、调整AI系统的行为时,控制一些扰人的变化。
案例
[音乐推荐,产品2]“一旦选了一首歌,应用就会更新下面的即时歌单,但是保留上面的不变。”

G15 鼓励反馈 (Encourage granular feedback.)

在和AI系统进行常规互动时,让用户能够提供能反映个人偏好的反馈。
案例
[电子邮件,产品1]“AI之前没有标记为‘重要’时,用户能够直接进行标记。”

G16 表明用户操作的结果 (Convey the consequences of user actions.)

直接更新状态或表明用户操作会如何影响AI系统将来的行为。
案例
[社交网络,产品2]“(产品)表明隐藏一个广告会导致将来广告相关度的调整。”

G17 提供全局控制 (Provide global controls.)

允许用户从全局定制AI系统的监控对象和行为模式。
案例
[照片管理,产品1]“(产品)让用户能打开位置历史功能,从而让AI能根据去的地方给照片分组。”

G18 提醒用户发生的变化 (Notify users about changes.)

当AI系统添加或更新功能时,通知用户。
案例
[导航,产品2]“(产品)为新特性提供了一些很小的内置教学标注。如果是需要吸引我注意力的新特性,那就是弹窗。”

指南的局限性

这套指南在10种产品类别里都得到了测试,因此可以说,指南在常见的AI系统中具有较高相关性。这套指南可以帮助评估现有产品以及一些新的设计想法。但在归纳这份指南时,研究者表示,在普遍性 (generality) 和细分性 (specialization) 之间有一些取舍,同时这份指南也不能涵盖所有类型的AI系统。例如,对于一些不使用图形用户界面的AI系统(例如基于语音的语音助手、运动跟踪),设计指南无法直接应用。

由于研究者倾向于使用可以通过观察系统界面进行直接评估的AI设计指南,一些宽泛的设计原则没有被收入。例如“建立信任感”,研究者转而采用一些有利于建立信任感的具体的、可观察的设计准则。研究者希望关注可以被观察到的属性,从而在让交互设计师日常中遇到此类取舍时,能够从设计指南里直接获得提醒。

研究者也表示,这份指南才刚刚触及到一些关于公平与更加宽泛的道德考量的话题。系统设计师们应当仔细地评估AI科技对人类和社会的影响。伦理相关的准则很难在经验评估中得到彻底的评审,进行评估的人可能会直接影响检测结果。


资料来源

论文链接:https://www.microsoft.com/en-us/research/uploads/prod/2019/01/Guidelines-for-Human-AI-Interaction-camera-ready.pdf
设计指南的可打印小卡片:https://www.microsoft.com/en-us/research/uploads/prod/2019/04/AI-Design-guidelines_041519.pdf
微软研究发表页面:https://www.microsoft.com/en-us/research/publication/guidelines-for-human-ai-interaction/