其他 - DIY面试题 for AI产品经理 | “智能音箱半夜诡异笑声”的原因分析及建议方案 - 《人工智能知识库》

一、先剖析，这个面试题，是在考察什么
二、这个bug背后的原因（逻辑）可能是什么
三、设计一个产品需求（一套feature逻辑）来fix这个bug
- 1、针对“误唤醒”问题
- 2、针对“播放诡异/邪恶/恐怖笑声”问题
四、总结：作为面试者，如果你能回答出下面这些点，会是你区别于其他人的亮点/加分项

作者：hanniman_

背景：在2018年3月，曾有媒体报道：亚马逊智能音箱Echo的内置语音助手Alexa，半夜会突然发出诡异、甚至是恐怖或邪恶的笑声，令用户毛骨悚然，有的人当场就拔掉了电源线……

提问：作为一位AI产品经理，请你 1）分析这个bug背后的原因（逻辑）可能是什么？2）设计一个产品需求（一套feature逻辑）来fix这个bug。

tips：请先不要直接网上搜索相关报道；大家可以先自己思考下，然后再search、对比打磨自己的答案。

DIY面试题 for AI产品经理 | “智能音箱半夜诡异笑声”的原因分析及建议方案 - 图1

下面，分享下个人回答，供大家参考。

一、先剖析，这个面试题，是在考察什么

1、简单说，是在考察面试者对语音交互的熟悉程度，甚至可以说，如果没有相关实战经验，很难短时间内就幻想出一针见血的回答。
2、当然，也能看出面试者基本的逻辑能力和思维简洁性。
**

二、这个bug背后的原因（逻辑）可能是什么

简单说，应该是误唤醒+语义解析（意图识别）进入了“播放诡异/邪恶/恐怖笑声”的逻辑。

在最近分享的文章《一文看懂“语音识别ASR” | AI产品经理需要了解的AI技术概念》中，我提到过，语音唤醒，有几种应用交互模式：

传统模式：先唤醒设备，等设备反馈后（提示音或亮灯），用户认为设备被唤醒了，再发出语音控制命令，缺点在于交互时间长；
One-shot：直接将唤醒词和工作命令一同说出，如“小雅小雅，我想听周杰伦的歌”；
Zero-shot：将常用用户指令设置为唤醒词，达到用户无感知唤醒，例如直接对车机说“导航到XX大厦”；
多唤醒：主要满足用户个性化的需求，给设备起多个名字。

本题中，从逻辑上讲，既可能是传统模式，也可能是one-shot或zero-shot；但是，考虑到“播放诡异/邪恶/恐怖笑声”本身并不是常用指令，并且这个新闻发生背景是2018年3月，那个时间点，行业内将one-shot或zero-shot应用于实际产品的公司好像没有，所以，本案例中，大概率的，应该就是传统模式的逻辑——先监听一段音频被“误唤醒”，再“识别+解析”下一段音频，进入播放诡异/邪恶/恐怖笑声的逻辑。

另外，几位团员的观点也非常有价值：
1）团员@经雷：需要先想想，到底有多高的触发频率…上来就想解决方案感觉是跳过了求证和复现的步骤……（hanniman补充：思考逻辑来讲，应该是他说的这样子，这个case，属于低概率的黑天鹅事件——但由于非常影响用户体验和产品口碑，所以还是需要重点解决）
2）用户没说话，那是什么声音导致了误唤醒呢？团员@刘钊说的比较有意思和可能性——用户的呼噜声，当然，其他的外部声音也可能，比如窗外的猫/家里的宠物走动的声音？邻居回家关门的声音？
3）团员@解解不社交还补充道，原因还可能是安全问题——黑客恶意攻击。这一点，其实也可以可以说的。
4）团员@better one说的，夜深人静，智能音箱主动降低音量到合理范围内，使得声音既能听到，又不觉得吵（前置条件：音箱和使用者在同一房间）——简单理解为，“睡眠场景，默认将智能音箱的音量降低”也是一个make sense的关注点。
**

三、设计一个产品需求（一套feature逻辑）来fix这个bug

1、针对“误唤醒”问题

在睡眠场景，将语音唤醒识别的阈值调高（既，将误识率调低）。
如何定义睡眠场景？比如 a）符合0点～6点；或可以让用户自定义；或用户跟AI说了“晚安”等道别语。b）如果能够和智能家居设备的状态感知系统结合更好，比如“房间的灯全部关闭”。c）甚至和其他用户个人设备结合，比如“脑电波”感知到用户已进入睡眠状态。

2、针对“播放诡异/邪恶/恐怖笑声”问题

方案1：在睡眠场景，将“播放诡异/邪恶/恐怖笑声”这个功能关闭掉。

所谓“关闭”（功能），可以是在解析逻辑下，自定义一个回复语，或直接进入闲聊兜底。

方案2：在睡眠场景，将所有“可能造成用户严重负面影响”的功能都关闭掉。

不仅是处理“诡异笑声”问题——整个AI系统中，一定不只是这一个case——需要专人把整个“这类问题”都排查处理出来。

方案3：不分场景，直接将“播放诡异/邪恶/恐怖笑声”这种“可能造成用户严重负面影响”功能全部去掉。

一个AI产品的体验价值，要注意“顾两头”，一方面，需要有90分的亮点/超预期功能，另一方面，一定要规避掉60分以下的破底线体验。而“播放诡异/邪恶/恐怖笑声”就属于，有这个功能，不至于让用户就因为ta而买设备，但一旦用户遇到这个体验，很非常受伤害/愤怒，so 还不如不要。

这3个方案，具体如何抉择呢？一方面，为了fix这个短期PR风险巨大的bug，短期内（1个工作日），可以采用方案1；另一方面，可以根据决策者自己对AI的认知和价值观，选择方案2或方案3，尽快实施。

另外，团员sunny的建议，“在睡眠场景，闲聊类功能开启前，需要用户二次确认”，也是一定程度make sense的点。

四、总结：作为面试者，如果你能回答出下面这些点，会是你区别于其他人的亮点/加分项

1、很多接触过语音交互流程的PM，可能都会说出“误唤醒”这个关键词，但如果你能说出传统模式、one-shot、zero-shot这几种模式，以及具体为何本案例大概率会是第一种逻辑（非常用指令+AI行业熟悉程度），会是比较亮点的加分。
2、关于“笑声”，虽然不是回答的必须内容，但如果你能说出“该笑声，是一段音频；而不是将文字字符串用TTS朗读出来”的话，也是一个加分效果。因为对AI不熟悉的人，是分不清楚的。
3、针对“播放诡异/邪恶/恐怖笑声”问题，能想到3个程度不同的方案，及中短期分别能采用哪种方案合适。
4、“整个AI系统中，一定不只是诡异笑声这一个case”，对这个AI认知，没有3年（甚至5年）以上AI产品实战经验的PM，很难想到的。
5、方案3背后的“一个AI产品的体验价值，要注意“顾两头”，这个AI产品方法论角度的认知，也是没有3年（甚至5年）以上AI产品实战经验的PM，很难想到的。

大家可以看到，这个面试题，看似是非常具体的一个产品体验细节问题，但背后其实是有N个可以”在不同纬度上“体现你差异化能力/认知的点。AI产品实战经验越丰富，才越可能说得全面/深入。