machine-learning
  • Welcome
  • 动手学深度学习
    • 1. 前言
    • 2. 预备知识
    • 3. 线性神经网络
    • 4. 多层感知机
    • 5. 深度学习计算
    • 6. 卷积神经网络
    • 7. 现代卷积神经网络
    • 8. 循环神经网络
    • 9. 现代循环神经网络
    • 10. 注意力机制
    • 11. 优化算法
    • 12. 计算性能
    • 13. 计算机视觉
    • 14. 自然语言处理:预训练
    • 15. 自然语言处理:应用
    • 16. 附录:深度学习工具
  • 百面机器学习
    • 1. 特征工程
    • 2. 模型评估
    • 3. 经典算法
    • 4. 降维
    • 5. 非监督学习
    • 6. 概率图模型
    • 7. 优化算法
    • 8. 采样
    • 9. 前向神经网络
    • 10. 循环神经网络
    • 11. 强化学习
    • 12. 集成学习
    • 13. 生成式对抗网络
    • 14. 人工智能的热门应用
  • 百面深度学习
    • 1. 卷积神经网络 CNN
    • 2. 循环神经网络 RNN
    • 3. 图神经网络 GNN
    • 4. 生成模型
    • 5. 生成式对抗网络 GAN
    • 6. 强化学习 RL
    • 7. 元学习
    • 8. 自动化机器学习 AutoML
    • 9. 计算机视觉 CV
    • 10. 自然语言处理 NLP
    • 11. 推荐系统
    • 12. 计算广告
    • 13. 视频处理
    • 14. 计算机听觉
    • 15. 自动驾驶
  • 统计学习方法
  • 推荐系统实践
    • 1. 推荐系统
    • 2. 特征工程
    • 3. Embedding
    • 4. 精排
    • 5. 召回
    • 6. 粗排/重排
    • 7. 多任务/多场景
    • 8. 冷启动
    • 9. 评估调试
    • 10. 自我修养
  • 深度学习推荐系统
    • 1. 推荐系统
    • 2. 进化之路
    • 3. 深度学习的应用
    • 4. Embedding
    • 5. 多角度审视
    • 6. 工程实现
    • 7. 评估方法
    • 8. 前沿实践
    • 9. 知识框架
  • 强化学习的数学原理
    • 1. 基础概念
    • 2. 贝尔曼公式
    • 3. 贝尔曼最优公式
    • 4. 值迭代与策略迭代
    • 5. 蒙特卡洛方法
    • 6. 随机近似与随机梯度下降
    • 7. 时序差分方法
    • 8. 值函数近似
    • 9. 策略梯度方法
    • 10. Actor-Critic方法
Powered by GitBook
On this page
  • 14.1 音频信号的特征提取 **
  • 14.2 语音识别 ***
  • 14.3 音频事件识别 **
  1. 百面深度学习

14. 计算机听觉

自动语音识别(Automatic Speech Recognition,ASR)

音频事件识别(Audio Event Recognition,AER)

14.1 音频信号的特征提取 **

  • 梅尔频率倒谱系数(MFCC)

    • 预加重(高频):低频能量高、信噪比大,影响信号质量(HPF)

    • 分帧(20-50 ms):短时平稳性

    • 加窗:帧之间平滑地衰减到 0,频谱质量更高

    • 傅里叶变换:时域 -> 频域,细节(音高)、包络(音色)、共振峰(主要频率成分)

    • 梅尔滤波:低频密集、高频稀疏,类似人耳

    • 对数变换:放大低能量区域的能量差异

    • 离散余弦变换:压缩(40 -> 12-20)

  • 优点:分离了包络与细节、模仿人耳特性、维度较低

  • 其他方法:线性预测倒谱系数(LPCC)、深度神经网络(数据量要求大,非主流)

14.2 语音识别 ***

  • 语音识别算法组成模块:信号处理与特征提取、声学模型(音素)、语言模型、搜索模型

  • 传统的语音识别算法:MFCC 特征 + GMM-HMM 语音识别

  • 当前主流语音识别算法:DNN-HMM、CTC

  • 难以解决问题:恶劣环境(高噪、口音、远场)

14.3 音频事件识别 **

  • 数据集

    • AudioSet:Youtube 提取的音频,10 秒,527 种事件

    • DCASE:声学场景合成、合成音频的事件检测、现实音频的事件检测

  • AER 算法

    • MFCC 特征、深度 CNN 特征提取(128)、分类器

    • RNN 替代 CNN

Previous13. 视频处理Next15. 自动驾驶

Last updated 3 years ago