14. 计算机听觉
自动语音识别(Automatic Speech Recognition,ASR)
音频事件识别(Audio Event Recognition,AER)
14.1 音频信号的特征提取 **
梅尔频率倒谱系数(MFCC)
预加重(高频):低频能量高、信噪比大,影响信号质量(HPF)
分帧(20-50 ms):短时平稳性
加窗:帧之间平滑地衰减到 0,频谱质量更高
傅里叶变换:时域 -> 频域,细节(音高)、包络(音色)、共振峰(主要频率成分)
梅尔滤波:低频密集、高频稀疏,类似人耳
对数变换:放大低能量区域的能量差异
离散余弦变换:压缩(40 -> 12-20)
优点:分离了包络与细节、模仿人耳特性、维度较低
其他方法:线性预测倒谱系数(LPCC)、深度神经网络(数据量要求大,非主流)
14.2 语音识别 ***
语音识别算法组成模块:信号处理与特征提取、声学模型(音素)、语言模型、搜索模型
传统的语音识别算法:MFCC 特征 + GMM-HMM 语音识别
当前主流语音识别算法:DNN-HMM、CTC
难以解决问题:恶劣环境(高噪、口音、远场)
14.3 音频事件识别 **
数据集
AudioSet:Youtube 提取的音频,10 秒,527 种事件
DCASE:声学场景合成、合成音频的事件检测、现实音频的事件检测
AER 算法
MFCC 特征、深度 CNN 特征提取(128)、分类器
RNN 替代 CNN
Last updated