语音识别 - 音频信号基础 - 《Deep Learning》

fmt chunck

名称	意义
AudioFormat
NumChannels	表示音频数据的声道数，1：单声道，2：双声道。
SampleRate	采样率
ByteRate	每秒数据字节数, 等于SampleRate NumChannels BitsPerSample / 8
BlockAlign	数据块对齐，等于NumChannels * BitsPerSample / 8
BitsPerSample	采样位数，8：8bit，16：16bit，32：32bit

读入wav文件，音频维度为采样率乘以时间，每一维的数值代表幅度

音频的功率=幅度的平方和

snr计算，其中A代表幅度，P代表功率

$音频信号基础 - 图1$ %3D20log%7B10%7D(%5Cfrac%7BA%7Bsignal%7D%7D%7BA%7Bnoise%7D%7D)#card=math&code=snr%20%3D%2010log%7B10%7D%28%5Cfrac%7BP%7Bsignal%7D%7D%7BP%7Bnoise%7D%7D%29%3D20log%7B10%7D%28%5Cfrac%7BA%7Bsignal%7D%7D%7BA_%7Bnoise%7D%7D%29&id=4537b033)

pydub.AudioSegment

修改采样深度

set_sample_width(1) # 修改采样位数为8
set_sample_width(2) # 修改采样位数为16
set_sample_width(4) # 修改采样位数为32