语音识别 - Kaldi - 《Deep Learning》

概念

每个transition-state（后面简称为state），都有一个序号。每个state可以发射若干条弧（跳转到自己，或其他state），每个弧编一个序号，就是transition-id。

每个state对应一个pdf-id。不同的state可以对应相同的pdf-id。这个对应关系，是由决策树tree和音素拓扑结构(lang/toop文件）决定的

这里的transition-state，是对音素的hmm-state的抽象。

对于monophone，它们是一一对应的。对于triphone，它就是上下文音素绑定的状态。按照定义和代码实现，transition-state是一个（phone, hmm-state, forward pdf, self-loop pdf)的四元组。

pdf是概率密度函数的意思。对于hmm-gmm模型，有多少pdf，就有多少个混合高斯模型；对于hmm-nnet模型，有多少pdf，神经网络的输出就有多少维。对所有pdf编号，从0开始，得到对序号就是pdf-id。

pdf = 声学模型的概率密度函数

transition-id对应HMM的状态转换，一串transition-id可以确定一个音素

transition-id与pdf-id有映射关系

phoneme-id = 一串transition-id

一串transition-id可以映射到一串pdf-id

supvervector 和 ivecotr

均值超矢量(supervector)是GMM-UBM模型的最终结果。在GMM-UBM框架下，说话人模型是从UBM模型自适应得到的，过程中只改变了均值的大小，因此说话人之间的区别信息都蕴含在GMM的均值矢量中。将说话人GMM模型的每个高斯成分的均值堆叠起来，形成一个高维的超矢量，即为均值超矢量。

JFA（Joint Factor Analysis）和 i-vector 都是对 supervector 的后续处理。JFA 显式地区分了说话人的身份和信道两个因素造成的影响，而 i-vector 没有区分

I-Vector模型中，我们采用全局差异空间(Total Variability Space，T)，即包含了说话者之间的差异又包含了信道之间的差异。所以I-Vector的建模过程在GMM均值超矢量中不严格区分话者的影响和信道的影响。

模型

kaldi有3个解码模型

ASpIRE 2016年10月15号release

SRE16Xvector 2017年10月4日release

CVTE Mandarin 2017年6月21日release 中文模型

结构

提取MFCC

根据pdf将MFCC输入DNN，DNN输出后验概率矩阵，矩阵的一列对应一个pdf