13. 视频处理

13.1 视频编解码 ***

  • 目标:压缩比、视频质量

  • NN 帧内预测:选择 HEVC 帧内编码模式,直接预测

  • NN 环路滤波模块:CNN 对重建块 增强和还原(ResNet)

13.2 视频监控 ***

高压缩比,提高人脸验证准确率

  • CTA(Compress-Then-Analysis):传统模式,FaceNet 性能下降

  • ATC(Analysis-Then-Compress):特征提取、压缩传输

    • 人脸特征信息、人脸内容信息 联合压缩传输Dall=log(wtDt+wfDf)D_{all}=-\log(w_tD_t+w_fD_f)

  • 压缩算法

    • 人脸特征提取:FaceNet,128 维单位球面

    • 人脸基本结构图重建(基本层):VGG-19(MAE),重建人脸基本信息,保持结构信息

    • 人脸残差信息压缩(增强层):GDN(MSE),压缩纹理图像

13.3 图像质量评价 **

Image Quality Assessment,IQA

  • 评价方式

    • 主观:平均主观得分(MOS)、平均主观得分差异(DMOS)

    • 客观:峰值信噪比(PSNR)

  • 原始参考图像信息量:全参考、半参考、无参考

13.4 超分辨率重建

  • 基于插值:速度块,但无法重建细节,e.g. 最近邻、线性、三次插值

  • 基于重建:均衡 / 非均衡 采样定理,基于多帧图像,结合先验知识(频域 / 空域)

  • 基于学习:像素块 -> 像素点,学习一系列 卷积核,重建高频信息

    • SRCNN:图像块的抽取和表示、非线性映射、重建

    • 提高速度(FSRCNN):输入原始低分辨率图像、小卷积核

    • 提升效果(VDSR):深层网络(感受野 + 复杂非线性)、损失函数

    • 利用帧间相关性(VESPCN):前后一帧,运动补偿(空间变换网络)

  • 贫家指标:峰值信噪比(PSNR)、结构相似性指标(SSIM)

13.5 网络通信

1. NN 预测,网络中某一节点,未来一段时间内的带宽情况

  • CNN-RNN 模型

    • CNN 抽取地理位置信息,RNN 抽取时序信息

    • 数据节点:网格 -> 卷积,可以改进为 GNN

2. NN 自适应码率控制

  • 两大难点:多个优化目标的对立性、网络情况的复杂多变性

  • 传统方法:基于宽带码率、基于缓存时长

  • 基于深度强化学习:Pensieve,策略选择下一个视频块的播放码率

Last updated