李宏毅课程

原始的CTC

用线性分类器解码,对齐后可能结巴
训练时喂入y_true所有可能的对齐

RNA

用RNN解码,RNN内保留了前面时间步的信息,防止结巴

训练的时候还是存在对齐的问题

RNN-T

用RNN解码,RNN内保留了前面时间步的信息,防止结巴

并且一个ht可能对应多个输出,因为一个发音可能对应两个字母,比如th

训练的时候还是存在对齐的问题

RNN-T with language model

把RNN解码器的输出再输入一个额外的RNN(语言模型),语言模型RNN的输出会接着输入解码RNN的下一个时间步。

训练时,语言模型单独训练。

Neural Transducer && MoChA

一次读入多个h,做attention