文本预处理
- 将文本进行分词得到词元(可以是字符,但是通常采用单词),此步骤也被成为 tokenize;
- 对单词(或者字符)进行统计,得到词表;
- 对词表中的单词根据词频进行排序,将单词索引作为单词数字化的表示(实现了单词和数字的对应关系);
- 词嵌入表示???
语音预处理
acoustic: 声音的 linguistic: 语言的(文本的)
MFCC
- 语音分帧(就是切成一系列重叠的片)长度和声音音素相关,通常为 20-50ms;
- 进行 STFT 的得到 spectrogram,通过 filter banks 滤波得到 mel spectrogram;
- mel spectrum 得到 MFCC;
- 利用 MFCC 进行语音的识别;
较常用的输入(acoustic features)为: filter bank output(最多的) 和 MFCC