语音交互 - “声”临其境——如何为你的产品选择恰当的发音人？ - 《UED设计知识体系》

01 音色的选择依据与评估维度
02 音色偏好及其与人设的关系
03 智能语音产品音色表现及建议
04 小结

AI时代，声音无处不在，随着语音交互技术的发展，语音交互已经加速在智能家居、手机、车载、智能穿戴、机器人等行业渗透和落地，研究公司Ovum预测称，到2021年内置语音助手的设备数量将超过75亿，超过全球人口总数。语音给冰冷的机器加上人类的特征，使得人们在与机器的互动中逐渐形成对机器的人格印象（即人设），并与之产生情感羁绊。

声音对智能语音产品的设计至关重要：国外有研究发现人们往往会认为那些语音更具吸引力的人，其性格也更讨人喜欢。但是，用户喜欢什么样的声音，不同声音与不同人设之间存在怎样的对应关系，这些问题仍尚无定论。

基于此，我们以人们正常说话时的“音色”为研究对象，对不同类型音色的主观偏好进行了研究，并探究了人设与音色的对应关系，及其如何指导智能音箱的音色选择。

01 音色的选择依据与评估维度

音色，相当于声音的身份ID，它传递着说话者的身份，帮助我们辨认说话者是谁，是智能语音产品建立差异化品牌形象、形成品牌认知的关键；此外，也有研究表明音色是影响人们对语音吸引力主观评价的主要因素。

1973年，美国国家标准学会（ANSI）将音色定义为能够区分两个用相似方法呈现的且具有相同响度和音调的两个声音的听觉属性。但实际上直到现在，音色仍难以被精准定义和定量描述，至今仍没有一个可供衡量的标准尺度。日常生活中，我们更多的是用各种各样的形容词来表达对“音色”的感受，如那英的声音是“沙哑的”，林志玲是“甜美的”，朱军是“浑厚的”，朱亚文是“磁性的”……

音色是人们对声音的一种涉及听觉、视觉、味觉、触觉等多种感觉系统的通感，具有多维性，需要从多个角度来构建以形成立体认知。为了更全面系统的了解音色，我们梳理了语声（即说话时的音色）、乐声（即唱歌时的音色）、环境声等领域对音色描述词的研究成果，并辅以问卷调查，总结出音色的主观评价词库。

“声”临其境——如何为你的产品选择恰当的发音人？ - 图1

从发音机制的角度来说，声音是由声带振动产生的声带音通过喉腔、咽腔、口腔、鼻腔等共振腔才传到人的耳朵里，由于鼻腔、口腔、咽腔等共振腔形状的不同变化，产生不同的共振，形成了不同的音色。由于个体在发声系统、呼吸器官、共鸣器官等生理机能上的差异，不同性别、年龄的人在正常说话时的“音色”也会表现出不同的特点：

“声”临其境——如何为你的产品选择恰当的发音人？ - 图2

如此多从不同角度描述音色的形容词，对于评估音色最核心、最具差异化的特征，效率是非常低下的。为此我们征集大量用户采用卡片分类的方式，将收集到的54个形容词从语义理解差异的角度进行分类；再通过听音选词的方式，从各类形容词中找出最适合描述音色的形容词组，最终确定了12对能被理解的、典型的且能全面描述人们说话时的“音色”属性词，并以此为标准作为音色的评估维度。

“声”临其境——如何为你的产品选择恰当的发音人？ - 图3

接下来，我们基于不同性别、年龄音色的差异，选取了22组基础音色，进行研究。通过心理学实验中比较经典的对偶比较法（即所有的声音两两对比，选出最喜欢的那个）、语义细分法（针对每个声音在12个音色评估维度上的符合程度打分）以及音色形象联想实验（让用户对听到的声音进行性别、年龄、性格、身份等属性的联想），最终获得了用户对不同类型音色的满意度情况，以及人设与音色的对应关系。

02 音色偏好及其与人设的关系

研究发现，用户更偏好18-40岁的年轻女声；在这个年龄段的女声中，音色越是“纯净”、“清亮”、“不单薄”，用户越喜欢。女声具有“表达”的特质，它代表了感性、温和、体贴等；相较于其他年龄段，18-40岁的年轻女声嗓音已经稳定、成熟，其中“纯净”、“清亮”的女声让用户感受到满满的少女气息和美好。

研究中我们还发现，用户的性别、年龄会影响其对音色的偏好：

1）关于音色偏好的性别差异：

对于女声，男性和女性用户都喜欢年轻女声，但是男性用户更看重“甜美”和“有力”这两个特质，而女性用户更喜欢“纯净”、“清亮”的女声；
对于男声，女性用户比男性用户喜欢的男声更为年轻，且更关注声音的“平稳”和“浑厚”，而男性用户更喜欢“圆润”、“温和”、“平稳”的男声。

“声”临其境——如何为你的产品选择恰当的发音人？ - 图4

根据进化心理学的观点，在人类进化的过程中，那些能够预测具有良好遗传基因的特征被认为是具有吸引力的；其中，嗓音作为一种跟人类荷尔蒙有关的身体线索, 是个体身体状态和健康程度的重要标志。不同性别用户对音色不同偏好的背后可能就是嗓音特征所反映的择偶优势：在异性选择上，男性更喜欢音调更高的女性化嗓音，它反映出女性的生育力，女性更喜欢音调更低的男性化嗓音，它反映出男性的好资源、好基因；在面对同性竞争时，女性比男性更能给出客观的评价。

2）关于音色偏好的年龄差异：

20-39岁的用户更喜欢女声，尤其“纯净”的女声；而10-19岁和40-59岁这两个年龄段的用户则对男女声没有明显偏好，但有不同的特质要求：

10-19岁用户喜欢的女声更“纯净”、“明朗”、“平稳”且“不单薄”，像自己的同龄人；同样，也更喜欢像同龄人的男声；
40-59岁的用户更喜欢“有力”、“清亮”、“不单薄”的女声，既能感受到年轻的朝气，又具有成熟稳重的气质；对于男声同样也要求既年轻但又成熟稳重。

“声”临其境——如何为你的产品选择恰当的发音人？ - 图5

语音人机交互专家Clifford Nass在《Wired for Speech》中强调“当人们听到任何声音时，他们会自动地、无意识地给它分配个性形象”，而在之前我们研究发布的《赋予智能语音产品灵性之美，从“人设”的探索开始》中，可以知道人设一般会由性格、关系和基本属性构成，其中用户最关注性格和关系。

本次研究我们发现，音色与人设之间存在对应关系：音色的年龄会直接反应了人设的年龄；音色的特质则进一步揭示人设的性格和角色（即与用户的关系）。比如，“年长”“浑厚”的声音，容易被用户认为其性格更为“冷静沉着”，并将之视为“专家/助手”；“响亮”、“清亮”、“轻快”的音色，给用户的感觉更年轻，性格更“外向健谈、聪明开放”，也更容易将其当成朋友。

基于此，音色的选择需与人设的定位一致。人设是企业的品牌定位、产品的品类载体、面向的目标人群以及具体的使用场景等信息综合考虑的结果，围绕“性格、关系、基本属性”这几个核心内容，最终落地在语音、语言、产品外观、虚拟形象等多个维度。多个维度在表达人设时要注意保持一致性，以免发生人设崩塌，试想一下，如果有一天声音嗲嗲的志玲姐姐穿着大花袄、翘着二郎腿、嗑瓜子的时候，是多么的违和……

03 智能语音产品音色表现及建议

上述研究中，我们找到了用户偏好的音色特征，以及人设与音色的对应关系，那么目前市场上智能语音产品的音色表现如何呢？与人设是否一致？

为此，我们对中国市场上5款主流的智能音箱音色特质、关联人设和用户偏好进行了调研，发现：

从音色喜好度的角度来说，目前仍然没有一种音色能收获大众的喜爱

调研的5款智能音箱，音色大多表现中庸，喜欢的人和不喜欢的人差不多；少数喜欢的用户占比高的，又呈现出两极化。语音产品声音领域的绝对赢家尚未出现，还存在竞争空间，建议继续优化音色，不要盲目跟随。

“声”临其境——如何为你的产品选择恰当的发音人？ - 图6

音色所反映的人设，与用户喜欢的人设之间存在差距

《赋予智能语音产品灵性之美，从“人设”的探索开始》的研究发现，用户喜欢的智能音箱人设是：18-25岁，聪明、善良、外向的女性助手或分身。

从用户最关注的性格和关系来看，大部分的智能音箱的音色把握住了与用户的关系，都表现出助手特征，但在性格特征的传达上仍有欠缺，所测的音色均难以传达出聪明、外向这两个特质。建议：在符合用户喜好的18-25的女性发音人中，选择具有“响亮”、“清亮”、“轻快”特质的音色，除此之外，还可联合语气语调、话术及其表达方式等共同塑造、强化人设形象。

像一个善良的助手或朋友，比较聪明、有点害羞——产品A
像一个沉着冷静、严谨的助手，具有亲和力——产品B和产品C
像助手，也像朋友或专家，甚至伴侣，性格比较多元，善良、外向、聪明，兼具冷静，又有点高冷——产品D
像一个善良、聪明、外向活泼的孩子——产品E

此外，值得注意的是，随着AI赋能越来越多的产品、场景，我们能用声音与多种多样的设备进行互动时，智能语音产品声音的独特性将显得尤为重要；这时，为智能产品挑选声音，不止需要好听，符合人设，更重要的是有辨识度，能够从众多声音中脱颖而出，让用户一听到它就能很快的知道“它是谁“、“我在跟谁交流”……这是用声音构建品牌形象、形成差异化竞争的关键，也是未来需要我们进行扩展研究的课题。

04 小结

本次研究，我们探索了声音的奥秘，找寻了人们喜欢的音色背后的普适性规律及其与人设的关系，当它落在智能音箱上时又该如何指导音色的选择。我们认为，智能语音产品音色的选择不单是符合人设，而是用户的喜好度、与人设的匹配度和声音的辨识度三者之间的有效平衡，以让人们充分感受到声音背后那温暖人心的独特灵魂。

语言是一门艺术，有着强大的感染力、生命力、表现力，在抑扬顿挫之间、强弱转换之间直击灵魂；语音是语言的物质外壳，是声音和意义的结合。用声音来塑造形象，选对声音只是第一步，未来我们仍将继续探索，品读语言文字，享受语音魅力。

转载自百度AIID 原文地址