语音识别主要完成从音频输入到识别文字输出这个流程,其中音频的输入又可以独立出录音功能。

使用流程

语音识别完整的使用流程图如下。

语音识别 - 图1

音频输入

语音识别中,音频输入的实现是最核心的功能。目前支持的音频输入有两种方式,包括 实时录音实时播放

  • 实时录音 指通过浏览器的录音功能来实现实时音频捕捉,然后传化为目标语音类型;
  • 实时播放 指通过媒体标签播放音视频的同时,把播放的音频转化为目标语音类型;

主要实现方式如图所示。

语音识别 - 图2