第一章人工智能基础 - 1.3 能说会道的机器 - 《人工智能认知与体验——掌控机甲狄仁杰（V20.9.9）》

第3课能说会道的机器

知识点：
学习声音与声音的数字化
理解什么是语音合成
理解什么是语音识别
认知学习：
在我们生活当中，像手机的智能问答系统、智能音响、车载设备等，这些都是我们平常能看得见摸得着的人工智能应用。这些人工智能应用，大大地提高了我们的工作效率与生活质量。
1.3 能说会道的机器 - 图1
想一想：
在科幻电影里，我们经常看到机器人和人对话交流，机器能够像人一样武器说话。在日常生活当中，我们使用人工智能应用时，你听到过机器人“说话”吗？你对机器说过的话，它听得懂吗？

写一写：
请列举几个你与机器对话的场景。

在你与机器人对话聊天的过程中，机器人需要具备什么样的能力？
让我们讨论一下，并把写下来。

读一读：
要让机器人能跟我们人类聊天，必需要具备两大最为基本的功能：听与说。
机器是如何听得到我们说话的呢？
我们之所以能听到声音，是因为物体的震动产生声波，经过介质的传播，最后到达人耳，耳郭收集声波后经过一系列结构的传导到达耳蜗，耳蜗内有丰富的听觉感受器，可将声音传导到听觉神经，最后产生听觉。
这就是我们能听到这个世界上声音的原因。
1.3 能说会道的机器 - 图2
图1 声音的传播
声音的数字化
机器没有耳朵，那它怎么感知声音呢？这时侯就需要把声波转换为使于计算机存储和处理的音频文件了(如MP3格式)。
1.3 能说会道的机器 - 图3
图2 声间的数字化过程
这个过程如图2所示，从声波到最终文件主要经历了采样( sampling)、量化( quantization)和编码( encoding)这三个步骤。
首先，计算机可以通过麦克风捕捉声音，并针它转化为电信号（如电压），这就好比耳蜗中的听觉感受器把声波传导到听神经。
然后，通过采样将电信号在时间上分成很多个小片段（时间离散化）。
最后，再通过量化使得它变为数据点。并储存到计算机当中。
计算机里面的音频文件描述的实际上是一系列校时间先后顺序排列的数据点，所以也被称为时间序列( time senes)，把它可视化出来就是我们常见的波形( wavefor)。像波浪一样储存在计算机中的声音叫做波形声音。

看一看：
在下面的三幅图片中，手机都能“说话”，但是说话的方式不一样，你知道它们之间的差别吗？分享下你的想法。


图3 手机录音文件播放	图4 手机听书软件把图书读出来

看一看：
图3中的手机正在播放的是一段已经录制好了的波形声音。
图4是手机中的听书软件正在朗读一本电子书。而电子书所储存的内容并不是波形声音，而是文字。而将文字转化为声音的技术叫作语音合成(speech synthesis)，又称文语转换(Text to Speech)。
那下面的一幅图中的机器能够“说话”，它是我们生活上什么样的应用呢？它是使用播放录制好的波形声音，还是使用了语音合成技术呢？
1.3 能说会道的机器 - 图6
读一读：
机器的语音合成是如何完成的？
语言是由单词绘成，单词由音素组成，音素通常包含有元音、辅音、音调等。
1.3 能说会道的机器 - 图7
在开始合成语音之前，需要先录制一些语音作为语音库。为了尽可能地覆盖语言中的元音、辅音、音调，录制的内容通常需要一定的设计。
1.3 能说会道的机器 - 图8
合成语音的第一步是预测文本的读音除了将文本转换音素序列，为上了让生成的声音更加自然，我们还要分析文本的节奏、重音，处理文本中的数字、缩写等等。
1.3 能说会道的机器 - 图9
接下来就是合成声音，一种方法是从语音库中逐一寻找与目标一致的音素，并将它们拼接起来，这种方法叫作“波形拼接法”。另一种方法是将第一步预测的音素转换成每时每刻的语音参数，加上从语音库中学习到的特征再生成语音，这种方法叫“统计参数合成法”。将这两种方法融合起来使用，所合的成语音效果是最为贴近正确语音。
1.3 能说会道的机器 - 图10
想一想：
下面哪些场景运用到了语音识别技术？试着分析一下。
A、手机音乐软件播放音乐
B、电视剧中演员说话
C、手机语音助手为你搜索天气信息并朗读出来
D、火车、地铁和公交车在到站的时候会播放到站提醒
读一读：
机器人能跟我们人类聊天对话，除了能听能说外，还需要具备什么样的能力呢？

做一做：
如果我们把耳朵捂住，听不到任何声音，我们还可以通过什么样的方法交流？
1.3 能说会道的机器 - 图11

读一读：
在机器人技术发展的早期，它们没有耳朵，听不见声音，只能识别文字。早期的机器人和人聊天，只能通过文字进行。
但是随着人工智能的发展，很多机器人已经可以“听懂”人类的语言了，例如谷歌助手、苹果公司的Siri，微软的小娜等等。
1.3 能说会道的机器 - 图12
1.3 能说会道的机器 - 图13
要让机器能够听懂人的语言，首先必须检测到人说的话（语言），并把语音转换为文字，这种技术叫做语音识别(Speed Recognition)。
1.3 能说会道的机器 - 图14
语音识别的目的是把人说的话转化为文字或者机器可以理解的指令，从而实现人与机器在的语音交流。语音识别技术已经在现实生活中得到了广泛的应用。

想一想：
生活中还有哪些场合会用到语音识别呢？想想并将它写下来。

做一做：
语音识别你理解了吗？
机器能将文字转化为声音与我们人类交流，那么他们所发出的声音与我们人类的声音还具备着哪一些差异呢？大家不妨查阅下资料，并同学们之间交流一下。
最后，试着向你的家人或朋友介绍一下语音识别是什么，它有哪几种方式，让你的家人与朋友也加入到人工智能的学习行列中来吧。