machine-learning
  • Welcome
  • 动手学深度学习
    • 1. 前言
    • 2. 预备知识
    • 3. 线性神经网络
    • 4. 多层感知机
    • 5. 深度学习计算
    • 6. 卷积神经网络
    • 7. 现代卷积神经网络
    • 8. 循环神经网络
    • 9. 现代循环神经网络
    • 10. 注意力机制
    • 11. 优化算法
    • 12. 计算性能
    • 13. 计算机视觉
    • 14. 自然语言处理:预训练
    • 15. 自然语言处理:应用
    • 16. 附录:深度学习工具
  • 百面机器学习
    • 1. 特征工程
    • 2. 模型评估
    • 3. 经典算法
    • 4. 降维
    • 5. 非监督学习
    • 6. 概率图模型
    • 7. 优化算法
    • 8. 采样
    • 9. 前向神经网络
    • 10. 循环神经网络
    • 11. 强化学习
    • 12. 集成学习
    • 13. 生成式对抗网络
    • 14. 人工智能的热门应用
  • 百面深度学习
    • 1. 卷积神经网络 CNN
    • 2. 循环神经网络 RNN
    • 3. 图神经网络 GNN
    • 4. 生成模型
    • 5. 生成式对抗网络 GAN
    • 6. 强化学习 RL
    • 7. 元学习
    • 8. 自动化机器学习 AutoML
    • 9. 计算机视觉 CV
    • 10. 自然语言处理 NLP
    • 11. 推荐系统
    • 12. 计算广告
    • 13. 视频处理
    • 14. 计算机听觉
    • 15. 自动驾驶
  • 统计学习方法
  • 推荐系统实践
    • 1. 推荐系统
    • 2. 特征工程
    • 3. Embedding
    • 4. 精排
    • 5. 召回
    • 6. 粗排/重排
    • 7. 多任务/多场景
    • 8. 冷启动
    • 9. 评估调试
    • 10. 自我修养
  • 深度学习推荐系统
    • 1. 推荐系统
    • 2. 进化之路
    • 3. 深度学习的应用
    • 4. Embedding
    • 5. 多角度审视
    • 6. 工程实现
    • 7. 评估方法
    • 8. 前沿实践
    • 9. 知识框架
  • 强化学习的数学原理
    • 1. 基础概念
    • 2. 贝尔曼公式
    • 3. 贝尔曼最优公式
    • 4. 值迭代与策略迭代
    • 5. 蒙特卡洛方法
    • 6. 随机近似与随机梯度下降
    • 7. 时序差分方法
    • 8. 值函数近似
    • 9. 策略梯度方法
    • 10. Actor-Critic方法
Powered by GitBook
On this page
  • 13.1 视频编解码 ***
  • 13.2 视频监控 ***
  • 13.3 图像质量评价 **
  • 13.4 超分辨率重建
  • 13.5 网络通信
  • 1. NN 预测,网络中某一节点,未来一段时间内的带宽情况
  • 2. NN 自适应码率控制
  1. 百面深度学习

13. 视频处理

Previous12. 计算广告Next14. 计算机听觉

Last updated 3 years ago

13.1 视频编解码 ***

  • 目标:压缩比、视频质量

  • NN 帧内预测:选择 HEVC 帧内编码模式,直接预测

  • NN 环路滤波模块:CNN 对重建块 增强和还原(ResNet)

13.2 视频监控 ***

高压缩比,提高人脸验证准确率

  • CTA(Compress-Then-Analysis):传统模式,FaceNet 性能下降

  • ATC(Analysis-Then-Compress):特征提取、压缩传输

    • 人脸特征信息、人脸内容信息 联合压缩传输:Dall=−log⁡(wtDt+wfDf)D_{all}=-\log(w_tD_t+w_fD_f)Dall​=−log(wt​Dt​+wf​Df​)

  • 压缩算法

    • 人脸特征提取:FaceNet,128 维单位球面

    • 人脸基本结构图重建(基本层):VGG-19(MAE),重建人脸基本信息,保持结构信息

    • 人脸残差信息压缩(增强层):GDN(MSE),压缩纹理图像

13.3 图像质量评价 **

Image Quality Assessment,IQA

  • 评价方式

    • 主观:平均主观得分(MOS)、平均主观得分差异(DMOS)

    • 客观:峰值信噪比(PSNR)

  • 原始参考图像信息量:全参考、半参考、无参考

13.4 超分辨率重建

  • 基于插值:速度块,但无法重建细节,e.g. 最近邻、线性、三次插值

  • 基于重建:均衡 / 非均衡 采样定理,基于多帧图像,结合先验知识(频域 / 空域)

  • 基于学习:像素块 -> 像素点,学习一系列 卷积核,重建高频信息

    • SRCNN:图像块的抽取和表示、非线性映射、重建

    • 提高速度(FSRCNN):输入原始低分辨率图像、小卷积核

    • 提升效果(VDSR):深层网络(感受野 + 复杂非线性)、损失函数

    • 利用帧间相关性(VESPCN):前后一帧,运动补偿(空间变换网络)

  • 贫家指标:峰值信噪比(PSNR)、结构相似性指标(SSIM)

13.5 网络通信

1. NN 预测,网络中某一节点,未来一段时间内的带宽情况

  • CNN-RNN 模型

    • CNN 抽取地理位置信息,RNN 抽取时序信息

    • 数据节点:网格 -> 卷积,可以改进为 GNN

2. NN 自适应码率控制

  • 两大难点:多个优化目标的对立性、网络情况的复杂多变性

  • 传统方法:基于宽带码率、基于缓存时长

  • 基于深度强化学习:Pensieve,策略选择下一个视频块的播放码率