音频技术基础

  • 声音信号
    • 频域特征由很多正弦分量组成
    • 周期信号、傅里叶级数、离散现状谱、有明确高音的有调声音
    • 非周期信号、傅里叶变换、连续谱、无明确
  • 声波频率
    • 信号每秒发生变化的次数
  • 音调
    • 由频率所决定,音阶划分
  • 声压和声压级
    • 声音的压力
    • 声压级,声压有效值取对数
    • 声音强弱的线性变化人耳的感觉与声压级呈线性变化
  • 听阈
    • 人耳可听到的声压
    • 1kHz、2*10^-5Pa
  • 痛阈
    • 20Pa

人耳听觉特性

  • 响度
    • 声压或声强
    • 主观角度描述人耳对声音强弱的感觉
    • 等响曲线,不同频率的声音,有相同的音量感的声压构成曲线簇
    • 常用1kHz构成标准音
  • 音调
    • 频率
  • 音色
    • 波形
  1. 人耳对不同频率声音的灵敏度不同,中频最敏感
  2. 对4kHz左右声音最敏感
  3. 响度级越高,曲线越平缓
  4. 100Hz以下低频音灵敏度急剧下降
  5. 1kHz作为各种声音的基准

人耳听觉的掩蔽效应

人耳听到符合声音,低响度声音被掩蔽
声音能被听到的条件:

  1. 声压级超过听者的听阈
  2. 超过背景环境的掩蔽阈
  3. 在可听频率范围内

声音质量的评价

  • 主观评价
    • 主观评价更为全面
    • 清晰度和可懂度
    • MOS得分五个等级
  • 客观评价
    • 波形失真度,信噪比度量
    • 频谱失真测量
    • 谱包络失真测量

音频信息分类

  • 有损压缩,量化

    • 波形编码
      • 话音质量不好
      • 时间轴上对模拟语音按一定速率抽样,分层量化
      • 脉冲编码调制PCM
      • 增量调制编码DM,对预测模型的预测误差编码
      • 差值脉冲编码调制BPCM
      • 自适应差分脉冲编码调制ADPCM
      • 子带编码SBC
      • 矢量量化编码VQ
    • 参数编码
      • 压缩率较高
      • 声源编码,以发声机制的模型为基础
      • 音素分为浊音(周期信号,低频区)和清音(没有周期特性,高频区)
      • 一个近似的短时平稳随机过程,短时间内参数变化较慢
      • 线性预测编码LPC
    • 混合编码

      常用压缩编码

  • 差值脉冲编码调制和自适应差值脉冲编码调制

    • 波形编码
    • 语音信号经采样后得到的采样值相关性较强
    • 传统的PCM是对整个样值编码
    • 考虑相邻样值的相关性
    • 差值脉冲编码利用样本间的信息冗余度
    • 对当前的样值的预测值可以由前面若干个样值预测,对样值和预测值的差值编码
    • 自适应差值脉冲编码利用自适应思想改变量化阶的大小
  • 线性预测编码
    • 参数编码
    • 将语音信号划分浊音清音
    • 语音信号的短时分析和基音提取
    • 逐帧将语音信号用基音周期、清浊音判决、声道模型参数和增益表示
    • 对这些参数进行量化编码,在收端再进行语音合成
  • 矢量量化编码
    • 类似于词典编码
    • 并没有对话音信号直接量化编码,而是寻求一种映射关系
    • 利用码书与输入矢量最匹配的索引代替矢量进行传输和存储
    • 经过查表即可还原信号
    • 下标的数据比矢量本身小得多实现数据的压缩
    • 构成码本的码字数量为码本的长度,用N来表示
    • 每个码字的下标用log2N位二进制数表示
    • 每个码字是由k个原始数据构成
    • 可以得到压缩率为【多媒体通信】音频技术基础 - 图1
  • 子带编码
    • 将输入信号用带通滤波器风分割成若干个子带分别编码
    • 各个子带带宽可相同可不同
    • 等带宽硬件易于实现
    • 变带宽可以结合人的听觉特性灵活划分
    • 语音信号的能量主要集中在500Hz~3000Hz频率范围内
    • 人耳能听懂的话集中在400Hz~3000Hz
    • 因此可以通过合理分配带宽获得更好的听觉质量
  • 感知编码
    • 利用人耳听觉的心理声学特性
    • 人耳对音频信号的幅度频率和时间的分辨能力有限
    • 对人耳感觉不到的成分不进行编码
    • 听觉阈值电平
    • 临界频段
    • 低频分辨能力较强,高频分辨较差
    • 频域掩蔽、时域掩蔽
    • 将输入信号的频率和振幅与人的听觉感知模型比较,去除不相干部分和冗余部分

音频编码标准

  • 波形编码标准
    • G.711 G.721 G.722
    • A律 $\mu$ 律编码
  • 混合编码标准
    • G.728 G.729 G.723.1
    • G.728低延时码本激励线性预测LD-CELP
    • G.729采用共轭结构代数码本
  • MPEG1标准
    • 三种压缩模式.mp1 .mp2 .mp3
    • 向下兼容,压缩算法由子带划分和变换编码构成
    • 通过滤波器组成分为32个子带
    • FFT变换到频域
    • 利用生理声学模型对能感知到的噪声阈值估计
    • 根据对噪声阈值的估计进行比特分配和量化
    • .mp3压缩率最高最复杂