音频技术基础

音频技术基础

声音信号
- 频域特征由很多正弦分量组成
- 周期信号、傅里叶级数、离散现状谱、有明确高音的有调声音
- 非周期信号、傅里叶变换、连续谱、无明确
声波频率
- 信号每秒发生变化的次数
音调
- 由频率所决定，音阶划分
声压和声压级
- 声音的压力
- 声压级，声压有效值取对数
- 声音强弱的线性变化人耳的感觉与声压级呈线性变化
听阈
- 人耳可听到的声压
- 1kHz、2*10^-5Pa
痛阈
- 20Pa

人耳听觉特性

响度
- 声压或声强
- 主观角度描述人耳对声音强弱的感觉
- 等响曲线，不同频率的声音，有相同的音量感的声压构成曲线簇
- 常用1kHz构成标准音
音调
- 频率
音色
- 波形

人耳对不同频率声音的灵敏度不同，中频最敏感
对4kHz左右声音最敏感
响度级越高，曲线越平缓
100Hz以下低频音灵敏度急剧下降
1kHz作为各种声音的基准

人耳听觉的掩蔽效应

人耳听到符合声音，低响度声音被掩蔽
声音能被听到的条件：

声压级超过听者的听阈
超过背景环境的掩蔽阈
在可听频率范围内

声音质量的评价

主观评价
- 主观评价更为全面
- 清晰度和可懂度
- MOS得分五个等级
客观评价
- 波形失真度，信噪比度量
- 频谱失真测量
- 谱包络失真测量

音频信息分类

有损压缩，量化
- 波形编码
  - 话音质量不好
  - 时间轴上对模拟语音按一定速率抽样，分层量化
  - 脉冲编码调制PCM
  - 增量调制编码DM，对预测模型的预测误差编码
  - 差值脉冲编码调制BPCM
  - 自适应差分脉冲编码调制ADPCM
  - 子带编码SBC
  - 矢量量化编码VQ
- 参数编码
  - 压缩率较高
  - 声源编码，以发声机制的模型为基础
  - 音素分为浊音（周期信号，低频区）和清音（没有周期特性，高频区）
  - 一个近似的短时平稳随机过程，短时间内参数变化较慢
  - 线性预测编码LPC
- 混合编码
  常用压缩编码
差值脉冲编码调制和自适应差值脉冲编码调制
- 波形编码
- 语音信号经采样后得到的采样值相关性较强
- 传统的PCM是对整个样值编码
- 考虑相邻样值的相关性
- 差值脉冲编码利用样本间的信息冗余度
- 对当前的样值的预测值可以由前面若干个样值预测，对样值和预测值的差值编码
- 自适应差值脉冲编码利用自适应思想改变量化阶的大小
线性预测编码
- 参数编码
- 将语音信号划分浊音清音
- 语音信号的短时分析和基音提取
- 逐帧将语音信号用基音周期、清浊音判决、声道模型参数和增益表示
- 对这些参数进行量化编码，在收端再进行语音合成
矢量量化编码
- 类似于词典编码
- 并没有对话音信号直接量化编码，而是寻求一种映射关系
- 利用码书与输入矢量最匹配的索引代替矢量进行传输和存储
- 经过查表即可还原信号
- 下标的数据比矢量本身小得多实现数据的压缩
- 构成码本的码字数量为码本的长度，用N来表示
- 每个码字的下标用log2N位二进制数表示
- 每个码字是由k个原始数据构成
- 可以得到压缩率为
子带编码
- 将输入信号用带通滤波器风分割成若干个子带分别编码
- 各个子带带宽可相同可不同
- 等带宽硬件易于实现
- 变带宽可以结合人的听觉特性灵活划分
- 语音信号的能量主要集中在500Hz~3000Hz频率范围内
- 人耳能听懂的话集中在400Hz~3000Hz
- 因此可以通过合理分配带宽获得更好的听觉质量
感知编码
- 利用人耳听觉的心理声学特性
- 人耳对音频信号的幅度频率和时间的分辨能力有限
- 对人耳感觉不到的成分不进行编码
- 听觉阈值电平
- 临界频段
- 低频分辨能力较强，高频分辨较差
- 频域掩蔽、时域掩蔽
- 将输入信号的频率和振幅与人的听觉感知模型比较，去除不相干部分和冗余部分

音频编码标准

波形编码标准
- G.711 G.721 G.722
- A律 $\mu$ 律编码
混合编码标准
- G.728 G.729 G.723.1
- G.728低延时码本激励线性预测LD-CELP
- G.729采用共轭结构代数码本
MPEG1标准
- 三种压缩模式.mp1 .mp2 .mp3
- 向下兼容，压缩算法由子带划分和变换编码构成
- 通过滤波器组成分为32个子带
- FFT变换到频域
- 利用生理声学模型对能感知到的噪声阈值估计
- 根据对噪声阈值的估计进行比特分配和量化
- .mp3压缩率最高最复杂

通信系统

【多媒体通信】音频技术基础

音频技术基础

人耳听觉特性

人耳听觉的掩蔽效应

声音质量的评价

音频信息分类

常用压缩编码

音频编码标准