作者:hanniman_

背景:在2018年3月,曾有媒体报道:亚马逊智能音箱Echo的内置语音助手Alexa,半夜突然发出诡异、甚至是恐怖或邪恶的笑声,令用户毛骨悚然,有的人当场就拔掉了电源线……

提问:作为一位AI产品经理,请你 1)分析这个bug背后的原因(逻辑)可能是什么?2)设计一个产品需求(一套feature逻辑)来fix这个bug

tips:请先不要直接网上搜索相关报道;大家可以先自己思考下,然后再search、对比打磨自己的答案。

DIY面试题 for AI产品经理 | “智能音箱半夜诡异笑声”的原因分析及建议方案 - 图1

下面,分享下个人回答,供大家参考。

一、先剖析,这个面试题,是在考察什么

1、简单说,是在考察面试者对语音交互的熟悉程度,甚至可以说,如果没有相关实战经验,很难短时间内就幻想出一针见血的回答。
2、当然,也能看出面试者基本的逻辑能力思维简洁性。
**

二、这个bug背后的原因(逻辑)可能是什么

简单说,应该是误唤醒+语义解析(意图识别)进入了“播放诡异/邪恶/恐怖笑声”的逻辑

在最近分享的文章《一文看懂“语音识别ASR” | AI产品经理需要了解的AI技术概念》中,我提到过,语音唤醒,有几种应用交互模式:

  • 传统模式:先唤醒设备,等设备反馈后(提示音或亮灯),用户认为设备被唤醒了,再发出语音控制命令,缺点在于交互时间长;
  • One-shot:直接将唤醒词和工作命令一同说出,如“小雅小雅,我想听周杰伦的歌”;
  • Zero-shot:将常用用户指令设置为唤醒词,达到用户无感知唤醒,例如直接对车机说“导航到XX大厦”;
  • 多唤醒:主要满足用户个性化的需求,给设备起多个名字。

本题中,从逻辑上讲,既可能是传统模式,也可能是one-shot或zero-shot;但是,考虑到“播放诡异/邪恶/恐怖笑声”本身并不是常用指令,并且这个新闻发生背景是2018年3月,那个时间点,行业内将one-shot或zero-shot应用于实际产品的公司好像没有,所以,本案例中,大概率的,应该就是传统模式的逻辑——先监听一段音频被“误唤醒”,再“识别+解析”下一段音频,进入播放诡异/邪恶/恐怖笑声的逻辑

另外,几位团员的观点也非常有价值:
1)团员@经雷:需要先想想,到底有多高的触发频率…上来就想解决方案感觉是跳过了求证和复现的步骤……(hanniman补充:思考逻辑来讲,应该是他说的这样子,这个case,属于低概率的黑天鹅事件——但由于非常影响用户体验和产品口碑,所以还是需要重点解决
2)用户没说话,那是什么声音导致了误唤醒呢?团员@刘钊 说的比较有意思和可能性——用户的呼噜声,当然,其他的外部声音也可能,比如窗外的猫/家里的宠物走动的声音?邻居回家关门的声音?
3)团员@解解不社交 还补充道,原因还可能是安全问题——黑客恶意攻击。这一点,其实也可以可以说的。
4)团员@better one说的,夜深人静,智能音箱主动降低音量到合理范围内,使得声音既能听到,又不觉得吵(前置条件:音箱和使用者在同一房间)——简单理解为,“睡眠场景,默认将智能音箱的音量降低”也是一个make sense的关注点。
**

三、设计一个产品需求(一套feature逻辑)来fix这个bug

1、针对“误唤醒”问题

在睡眠场景,将语音唤醒识别的阈值调高(既,将误识率调低)。
如何定义睡眠场景?比如 a)符合0点~6点;或可以让用户自定义;或用户跟AI说了“晚安”等道别语。b)如果能够和智能家居设备的状态感知系统结合更好,比如“房间的灯全部关闭”。c)甚至和其他用户个人设备结合,比如“脑电波”感知到用户已进入睡眠状态。

2、针对“播放诡异/邪恶/恐怖笑声”问题

方案1:在睡眠场景,将“播放诡异/邪恶/恐怖笑声”这个功能关闭掉。

  • 所谓“关闭”(功能),可以是在解析逻辑下,自定义一个回复语,或直接进入闲聊兜底。

方案2:在睡眠场景,将所有“可能造成用户严重负面影响”的功能都关闭掉。

  • 不仅是处理“诡异笑声”问题——整个AI系统中,一定不只是这一个case——需要专人把整个“这类问题”都排查处理出来。

方案3:不分场景,直接将“播放诡异/邪恶/恐怖笑声”这种“可能造成用户严重负面影响”功能全部去掉。

  • 一个AI产品的体验价值,要注意“顾两头”,一方面,需要有90分的亮点/超预期功能,另一方面,一定要规避掉60分以下的破底线体验。而“播放诡异/邪恶/恐怖笑声”就属于,有这个功能,不至于让用户就因为ta而买设备,但一旦用户遇到这个体验,很非常受伤害/愤怒,so 还不如不要。

这3个方案,具体如何抉择呢?一方面,为了fix这个短期PR风险巨大的bug,短期内(1个工作日),可以采用方案1;另一方面,可以根据决策者自己对AI的认知和价值观,选择方案2或方案3,尽快实施。

另外,团员sunny的建议,“在睡眠场景,闲聊类功能开启前,需要用户二次确认”,也是一定程度make sense的点。

四、总结:作为面试者,如果你能回答出下面这些点,会是你区别于其他人的亮点/加分项

1、很多接触过语音交互流程的PM,可能都会说出“误唤醒”这个关键词,但如果你能说出传统模式、one-shot、zero-shot这几种模式,以及具体为何本案例大概率会是第一种逻辑(非常用指令+AI行业熟悉程度),会是比较亮点的加分。
2、关于“笑声”,虽然不是回答的必须内容,但如果你能说出“该笑声,是一段音频;而不是将文字字符串用TTS朗读出来”的话,也是一个加分效果。因为对AI不熟悉的人,是分不清楚的。
3、针对“播放诡异/邪恶/恐怖笑声”问题,能想到3个程度不同的方案,及中短期分别能采用哪种方案合适。
4、“整个AI系统中,一定不只是诡异笑声这一个case”,对这个AI认知,没有3年(甚至5年)以上AI产品实战经验的PM,很难想到的。
5、方案3背后的“一个AI产品的体验价值,要注意“顾两头”,这个AI产品方法论角度的认知,也是没有3年(甚至5年)以上AI产品实战经验的PM,很难想到的。

大家可以看到,这个面试题,看似是非常具体的一个产品体验细节问题,但背后其实是有N个可以”在不同纬度上“体现你差异化能力/认知的点。AI产品实战经验越丰富,才越可能说得全面/深入。