概念
每个transition-state(后面简称为state), 都有一个序号。每个state可以发射若干条弧(跳转到自己,或其他state),每个弧编一个序号,就是transition-id。
每个state对应一个pdf-id。不同的state可以对应相同的pdf-id。这个对应关系,是由决策树tree和音素拓扑结构(lang/toop文件)决定的
这里的transition-state,是对音素的hmm-state的抽象。
对于monophone,它们是一一对应的。对于triphone,它就是上下文音素绑定的状态。按照定义和代码实现,transition-state是一个(phone, hmm-state, forward pdf, self-loop pdf)的四元组。
pdf是概率密度函数的意思。对于hmm-gmm模型,有多少pdf,就有多少个混合高斯模型;对于hmm-nnet模型,有多少pdf,神经网络的输出就有多少维。对所有pdf编号,从0开始,得到对序号就是pdf-id。
pdf = 声学模型的概率密度函数
transition-id对应HMM的状态转换,一串transition-id可以确定一个音素
transition-id与pdf-id有映射关系
phoneme-id = 一串transition-id
一串transition-id可以映射到一串pdf-id
supvervector 和 ivecotr
均值超矢量(supervector)是GMM-UBM模型的最终结果。在GMM-UBM框架下,说话人模型是从UBM模型自适应得到的,过程中只改变了均值的大小,因此说话人之间的区别信息都蕴含在GMM的均值矢量中。将说话人GMM模型的每个高斯成分的均值堆叠起来,形成一个高维的超矢量,即为均值超矢量。
JFA(Joint Factor Analysis)和 i-vector 都是对 supervector 的后续处理。JFA 显式地区分了说话人的身份和信道两个因素造成的影响,而 i-vector 没有区分
I-Vector模型中,我们采用全局差异空间(Total Variability Space,T),即包含了说话者之间的差异又包含了信道之间的差异。所以I-Vector的建模过程在GMM均值超矢量中不严格区分话者的影响和信道的影响。
https://www.jianshu.com/p/e730e70de7f8
https://www.zhihu.com/question/67471620
模型
kaldi有3个解码模型
ASpIRE 2016年10月15号release
SRE16Xvector 2017年10月4日release
CVTE Mandarin 2017年6月21日release 中文模型
结构
提取MFCC
根据pdf将MFCC输入DNN,DNN输出后验概率矩阵,矩阵的一列对应一个pdf
