音频技术基础
- 声音信号
- 频域特征由很多正弦分量组成
- 周期信号、傅里叶级数、离散现状谱、有明确高音的有调声音
- 非周期信号、傅里叶变换、连续谱、无明确
- 声波频率
- 信号每秒发生变化的次数
- 音调
- 由频率所决定,音阶划分
- 声压和声压级
- 声音的压力
- 声压级,声压有效值取对数
- 声音强弱的线性变化人耳的感觉与声压级呈线性变化
- 听阈
- 人耳可听到的声压
- 1kHz、2*10^-5Pa
- 痛阈
- 20Pa
人耳听觉特性
- 响度
- 声压或声强
- 主观角度描述人耳对声音强弱的感觉
- 等响曲线,不同频率的声音,有相同的音量感的声压构成曲线簇
- 常用1kHz构成标准音
- 音调
- 频率
- 音色
- 波形
- 人耳对不同频率声音的灵敏度不同,中频最敏感
- 对4kHz左右声音最敏感
- 响度级越高,曲线越平缓
- 100Hz以下低频音灵敏度急剧下降
- 1kHz作为各种声音的基准
人耳听觉的掩蔽效应
人耳听到符合声音,低响度声音被掩蔽
声音能被听到的条件:
- 声压级超过听者的听阈
- 超过背景环境的掩蔽阈
- 在可听频率范围内
声音质量的评价
- 主观评价
- 主观评价更为全面
- 清晰度和可懂度
- MOS得分五个等级
- 客观评价
- 波形失真度,信噪比度量
- 频谱失真测量
- 谱包络失真测量
音频信息分类
有损压缩,量化
差值脉冲编码调制和自适应差值脉冲编码调制
- 波形编码
- 语音信号经采样后得到的采样值相关性较强
- 传统的PCM是对整个样值编码
- 考虑相邻样值的相关性
- 差值脉冲编码利用样本间的信息冗余度
- 对当前的样值的预测值可以由前面若干个样值预测,对样值和预测值的差值编码
- 自适应差值脉冲编码利用自适应思想改变量化阶的大小
- 线性预测编码
- 参数编码
- 将语音信号划分浊音清音
- 语音信号的短时分析和基音提取
- 逐帧将语音信号用基音周期、清浊音判决、声道模型参数和增益表示
- 对这些参数进行量化编码,在收端再进行语音合成
- 矢量量化编码
- 类似于词典编码
- 并没有对话音信号直接量化编码,而是寻求一种映射关系
- 利用码书与输入矢量最匹配的索引代替矢量进行传输和存储
- 经过查表即可还原信号
- 下标的数据比矢量本身小得多实现数据的压缩
- 构成码本的码字数量为码本的长度,用N来表示
- 每个码字的下标用log2N位二进制数表示
- 每个码字是由k个原始数据构成
- 可以得到压缩率为
- 子带编码
- 将输入信号用带通滤波器风分割成若干个子带分别编码
- 各个子带带宽可相同可不同
- 等带宽硬件易于实现
- 变带宽可以结合人的听觉特性灵活划分
- 语音信号的能量主要集中在500Hz~3000Hz频率范围内
- 人耳能听懂的话集中在400Hz~3000Hz
- 因此可以通过合理分配带宽获得更好的听觉质量
- 感知编码
- 利用人耳听觉的心理声学特性
- 人耳对音频信号的幅度频率和时间的分辨能力有限
- 对人耳感觉不到的成分不进行编码
- 听觉阈值电平
- 临界频段
- 低频分辨能力较强,高频分辨较差
- 频域掩蔽、时域掩蔽
- 将输入信号的频率和振幅与人的听觉感知模型比较,去除不相干部分和冗余部分
音频编码标准
- 波形编码标准
- G.711 G.721 G.722
- A律 $\mu$ 律编码
- 混合编码标准
- G.728 G.729 G.723.1
- G.728低延时码本激励线性预测LD-CELP
- G.729采用共轭结构代数码本
- MPEG1标准
- 三种压缩模式.mp1 .mp2 .mp3
- 向下兼容,压缩算法由子带划分和变换编码构成
- 通过滤波器组成分为32个子带
- FFT变换到频域
- 利用生理声学模型对能感知到的噪声阈值估计
- 根据对噪声阈值的估计进行比特分配和量化
- .mp3压缩率最高最复杂