CTC

浏览 201 扫码分享 2023-11-21 12:48:45

原始的CTC
RNA
RNN-T
RNN-T with language model
Neural Transducer && MoChA

李宏毅课程

原始的CTC

用线性分类器解码，对齐后可能结巴
训练时喂入y_true所有可能的对齐

RNA

用RNN解码，RNN内保留了前面时间步的信息，防止结巴

训练的时候还是存在对齐的问题

RNN-T

用RNN解码，RNN内保留了前面时间步的信息，防止结巴

并且一个ht可能对应多个输出，因为一个发音可能对应两个字母，比如th

训练的时候还是存在对齐的问题

RNN-T with language model

把RNN解码器的输出再输入一个额外的RNN（语言模型），语言模型RNN的输出会接着输入解码RNN的下一个时间步。

训练时，语言模型单独训练。

Neural Transducer && MoChA

一次读入多个h，做attention

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录