原始的CTC
用线性分类器解码,对齐后可能结巴
训练时喂入y_true所有可能的对齐
RNA
用RNN解码,RNN内保留了前面时间步的信息,防止结巴
训练的时候还是存在对齐的问题
RNN-T
用RNN解码,RNN内保留了前面时间步的信息,防止结巴
并且一个ht可能对应多个输出,因为一个发音可能对应两个字母,比如th
训练的时候还是存在对齐的问题
RNN-T with language model
把RNN解码器的输出再输入一个额外的RNN(语言模型),语言模型RNN的输出会接着输入解码RNN的下一个时间步。
训练时,语言模型单独训练。
Neural Transducer && MoChA
一次读入多个h,做attention
