语音识别 - MFCC (Mel-Frequency Cepstral Coefficients，MFCCs) - 《Deep Learning》

在MFCC之前，线性预测系数（LPCS）和线性预测倒谱系数（LPCCs）是自动语音识别的的主流方法。

MFCC通常有以下之过程:[1][2]

将一段语音信号分解为多个讯框。
将语音信号预强化，通过一个高通滤波器。
进行傅立叶变换，将信号变换至频域。
将每个讯框获得的频谱通过梅尔滤波器(三角重叠窗口)，得到梅尔刻度。
在每个梅尔刻度上提取对数能量。
对上面获得的结果进行离散余弦变换，变换到倒频谱域。
MFCC就是这个倒频谱图的幅度(amplitudes)。一般使用12个系数，与讯框能量叠加得13维的系数。

1.声音信号是连续变化的，为了将连续变化信号简化，我们假设在一个短时间尺度内，音频信号不发生改变。因此将信号以多个采样点集合成一个单位，称为’’’讯框’’’。一个讯框多为20-40毫秒，如果讯框长度更短，那每个讯框内的采样点将不足以做出可靠的频谱计算，但若长度太长，则每个讯框信号会变化太大。

由于能量频谱中还存在大量的无用讯息，尤其人耳无法分辨高频的频率变化，因此让频谱通过梅尔滤波器。梅尔滤波器，也就是一组20个非线性分布的三角带通滤波器（Triangular Bandpass Filters），能求得每一个滤波器输出的对数能量。必须注意的是：这 20 个三角带通滤波器在’’’梅尔刻度’’’的频率上是平均分布的。梅尔频率代表一般人耳对于频率的感受度，由此也可以看出人耳对于频率 f 的感受是呈对数变化的。

MFCC (Mel-Frequency Cepstral Coefficients，MFCCs) - 图1