采样率,每秒采样上万点

从一个音频文件中解析出 采样率 采样位移

付利叶就是拆波,拆为正弦函数,光滑

同一个单词,时域图的波形变化无常,难以对应关系

在频域中,描述频率和能量,能量分布和语音内容高度吻合

作为特征,交给svm,bayes 训练模型,建立起能量频率和已经学习的单词的对应

音频难以提取特征,有MFCC api,做分类业务

语音识别 - 图1语音识别 - 图2

语音识别 - 图3构建样本输入输出,才能构建模型

语音识别 - 图4 pyhton 的语音特征库

从音频文件中读取两个参数, 位移和采样率,给mfcc 从中提取特征,得到n行13 列矩阵

mfcc 只与字有关,与语调无关

语音识别 - 图5一秒采样8000个,只有最3251个

将mfcc 矩阵绘制

语音识别 - 图6

用skl 的分类器 设计分类业务

语音识别 - 图7

一个mfcc 作为一个样本,要变形

将mfcc 所有行求均值,作为一行

语音识别 - 图8 共用7 × 14 个样本

svm 的linear poly 都可以,有置信概率可参考

语音识别 - 图9

语音识别 - 图10语音识别 - 图11

输出置信概率:

语音识别 - 图12

语音识别 - 图13七种样本,7×7 矩阵

语音识别 - 图14

语音识别 - 图15

语音识别 - 图16

静默时长切割字,从而识别一句话

语音识别 - 图17

说话过于流畅,可能要两个字一起训练

语音的应用已经确定了,不需要做了

回顾 建模过程

fit 前,要做好一行一样本,一列一特征

不能抻平的,就要均化

隐马模型:语音识别 - 图18

所有apple 的mfcc 落在一起,无论是mfcc 内部还是之间,都是服从apple 的能量分布的

可生成一个模型,专用于判断apple

每个类别都做一个隐码模型 用所有模型共同预测一个样本,得分大的为准,认为概率高

判别模型 是把所有类别训练成为一个模型 生成模型