文本预处理

  • 将文本进行分词得到词元(可以是字符,但是通常采用单词),此步骤也被成为 tokenize;
  • 对单词(或者字符)进行统计,得到词表;
  • 对词表中的单词根据词频进行排序,将单词索引作为单词数字化的表示(实现了单词和数字的对应关系);
  • 词嵌入表示???

语音预处理

acoustic: 声音的 linguistic: 语言的(文本的)

MFCC

  • 语音分帧(就是切成一系列重叠的片)长度和声音音素相关,通常为 20-50ms;
  • 进行 STFT 的得到 spectrogram,通过 filter banks 滤波得到 mel spectrogram;
  • mel spectrum 得到 MFCC;
  • 利用 MFCC 进行语音的识别;

    较常用的输入(acoustic features)为: filter bank output(最多的) 和 MFCC

语音识别

训练一个模型,输入语音或者语音特征得到和文本相关的结果。

输入选择
  • 语音:需要训练模型进行特征的提取
  • mfcc:mfcc 常用于语音识别
  • filter banks output:很多研究都采用这种方式

    输出选择
  • 音素(phoneme):音素和声音是一一对应的,通过声音得到音素相对来说较简单(通过音素组合得到对应的字符或者单词)

  • 字素(grapheme):书写的基本单位,比如英语的字符,汉字的单字;相对于音素来说模型识别字素更难
  • 词(word):英文里面的词,中文里面的词;对英文来说选用词貌似还行,但是对于很多语言,例如中文来说,词汇量太大
  • 词素(morpheme):英文中的词根词缀以及词

    采用 phoneme 和 grapheme 的输出方式相对较多