13. 视频处理
Last updated
Last updated
目标:压缩比、视频质量
NN 帧内预测:选择 HEVC 帧内编码模式,直接预测
NN 环路滤波模块:CNN 对重建块 增强和还原(ResNet)
高压缩比,提高人脸验证准确率
CTA(Compress-Then-Analysis):传统模式,FaceNet 性能下降
ATC(Analysis-Then-Compress):特征提取、压缩传输
人脸特征信息、人脸内容信息 联合压缩传输:
压缩算法
人脸特征提取:FaceNet,128 维单位球面
人脸基本结构图重建(基本层):VGG-19(MAE),重建人脸基本信息,保持结构信息
人脸残差信息压缩(增强层):GDN(MSE),压缩纹理图像
Image Quality Assessment,IQA
评价方式
主观:平均主观得分(MOS)、平均主观得分差异(DMOS)
客观:峰值信噪比(PSNR)
原始参考图像信息量:全参考、半参考、无参考
基于插值:速度块,但无法重建细节,e.g. 最近邻、线性、三次插值
基于重建:均衡 / 非均衡 采样定理,基于多帧图像,结合先验知识(频域 / 空域)
基于学习:像素块 -> 像素点,学习一系列 卷积核,重建高频信息
SRCNN:图像块的抽取和表示、非线性映射、重建
提高速度(FSRCNN):输入原始低分辨率图像、小卷积核
提升效果(VDSR):深层网络(感受野 + 复杂非线性)、损失函数
利用帧间相关性(VESPCN):前后一帧,运动补偿(空间变换网络)
贫家指标:峰值信噪比(PSNR)、结构相似性指标(SSIM)
CNN-RNN 模型
CNN 抽取地理位置信息,RNN 抽取时序信息
数据节点:网格 -> 卷积,可以改进为 GNN
两大难点:多个优化目标的对立性、网络情况的复杂多变性
传统方法:基于宽带码率、基于缓存时长
基于深度强化学习:Pensieve,策略选择下一个视频块的播放码率