machine-learning

⌘Ctrlk

13. 视频处理

13.1 视频编解码 ***

目标：压缩比、视频质量
NN 帧内预测：选择 HEVC 帧内编码模式，直接预测
NN 环路滤波模块：CNN 对重建块增强和还原（ResNet）

13.2 视频监控 ***

高压缩比，提高人脸验证准确率

CTA（Compress-Then-Analysis）：传统模式，FaceNet 性能下降
ATC（Analysis-Then-Compress）：特征提取、压缩传输
- 人脸特征信息、人脸内容信息 联合压缩传输： $D_{all}=-\log(w_tD_t+w_fD_f)$
压缩算法
- 人脸特征提取：FaceNet，128 维单位球面
- 人脸基本结构图重建（基本层）：VGG-19（MAE），重建人脸基本信息，保持结构信息
- 人脸残差信息压缩（增强层）：GDN（MSE），压缩纹理图像

13.3 图像质量评价 **

Image Quality Assessment，IQA

评价方式
- 主观：平均主观得分（MOS）、平均主观得分差异（DMOS）
- 客观：峰值信噪比（PSNR）
原始参考图像信息量：全参考、半参考、无参考

13.4 超分辨率重建

基于插值：速度块，但无法重建细节，e.g. 最近邻、线性、三次插值
基于重建：均衡 / 非均衡采样定理，基于多帧图像，结合先验知识（频域 / 空域）
基于学习：像素块 -> 像素点，学习一系列 卷积核，重建高频信息
- SRCNN：图像块的抽取和表示、非线性映射、重建
- 提高速度（FSRCNN）：输入原始低分辨率图像、小卷积核
- 提升效果（VDSR）：深层网络（感受野 + 复杂非线性）、损失函数
- 利用帧间相关性（VESPCN）：前后一帧，运动补偿（空间变换网络）
贫家指标：峰值信噪比（PSNR）、结构相似性指标（SSIM）

13.5 网络通信

1. NN 预测，网络中某一节点，未来一段时间内的带宽情况

CNN-RNN 模型
- CNN 抽取地理位置信息，RNN 抽取时序信息
- 数据节点：网格 -> 卷积，可以改进为 GNN

2. NN 自适应码率控制

两大难点：多个优化目标的对立性、网络情况的复杂多变性
传统方法：基于宽带码率、基于缓存时长
基于深度强化学习：Pensieve，策略选择下一个视频块的播放码率

Previous12. 计算广告 Next14. 计算机听觉

Last updated 3 years ago