文本语音预处理

浏览 219 扫码分享 2023-02-18 14:03:52

文本预处理
语音预处理
- MFCC
- 语音识别
  - 输入选择
  - 输出选择

文本预处理

将文本进行分词得到词元（可以是字符，但是通常采用单词），此步骤也被成为 tokenize；
对单词（或者字符）进行统计，得到词表；
对词表中的单词根据词频进行排序，将单词索引作为单词数字化的表示（实现了单词和数字的对应关系）；
词嵌入表示？？？

语音预处理

acoustic: 声音的 linguistic: 语言的（文本的）

MFCC

语音分帧（就是切成一系列重叠的片）长度和声音音素相关，通常为 20-50ms；
进行 STFT 的得到 spectrogram，通过 filter banks 滤波得到 mel spectrogram；
mel spectrum 得到 MFCC；
利用 MFCC 进行语音的识别；

较常用的输入（acoustic features）为： filter bank output（最多的）和 MFCC

语音识别

训练一个模型，输入语音或者语音特征得到和文本相关的结果。

输入选择

语音：需要训练模型进行特征的提取
mfcc：mfcc 常用于语音识别
filter banks output：很多研究都采用这种方式

输出选择
音素（phoneme）：音素和声音是一一对应的，通过声音得到音素相对来说较简单（通过音素组合得到对应的字符或者单词）
字素（grapheme）：书写的基本单位，比如英语的字符，汉字的单字；相对于音素来说模型识别字素更难
词（word）：英文里面的词，中文里面的词；对英文来说选用词貌似还行，但是对于很多语言，例如中文来说，词汇量太大
词素（morpheme）：英文中的词根词缀以及词

采用 phoneme 和 grapheme 的输出方式相对较多

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录