14. 计算机听觉

自动语音识别(Automatic Speech Recognition,ASR)

音频事件识别(Audio Event Recognition,AER)

14.1 音频信号的特征提取 **

  • 梅尔频率倒谱系数(MFCC)

    • 预加重(高频):低频能量高、信噪比大,影响信号质量(HPF)

    • 分帧(20-50 ms):短时平稳性

    • 加窗:帧之间平滑地衰减到 0,频谱质量更高

    • 傅里叶变换:时域 -> 频域,细节(音高)、包络(音色)、共振峰(主要频率成分)

    • 梅尔滤波:低频密集、高频稀疏,类似人耳

    • 对数变换:放大低能量区域的能量差异

    • 离散余弦变换:压缩(40 -> 12-20)

  • 优点:分离了包络与细节、模仿人耳特性、维度较低

  • 其他方法:线性预测倒谱系数(LPCC)、深度神经网络(数据量要求大,非主流)

14.2 语音识别 ***

  • 语音识别算法组成模块:信号处理与特征提取、声学模型(音素)、语言模型、搜索模型

  • 传统的语音识别算法:MFCC 特征 + GMM-HMM 语音识别

  • 当前主流语音识别算法:DNN-HMM、CTC

  • 难以解决问题:恶劣环境(高噪、口音、远场)

14.3 音频事件识别 **

  • 数据集

    • AudioSet:Youtube 提取的音频,10 秒,527 种事件

    • DCASE:声学场景合成、合成音频的事件检测、现实音频的事件检测

  • AER 算法

    • MFCC 特征、深度 CNN 特征提取(128)、分类器

    • RNN 替代 CNN

Last updated