9. 计算机视觉 CV

9.1 物体检测 ***

检测图像中是否存在给定类别的物体,如果存在,返回 bounding box

  • one / two-stage:独立地、显式地 提取候选区域

    • one-stage:效率优势,端到端 CNN 预测类别 / 位置

    • two-stage:精度优势,无监督 选择性搜索 + SVM 分类

    • 原因:one 大量锚框导致不均衡,two 修正后质量更高,two 第二步计算量大

  • two-stage: R-CNN、SPPNet、Fast R-CNN、Faster R-CNN

  • one-stage: YOLO、YOLOv2、YOLO9000、YOLOv3

    • S×SS\times S 方格,每个方格检测 中心 位于该方格的物体

    • 每个放个预测 B 个边界框,中心位置 + 高宽 + 置信度

  • 小物体检测

    • 模型设计:特征金字塔、沙漏结构,减少下采样

    • 训练:提高小物品样本比例,数据增强

    • 尝试更大图像尺寸

9.2 图像分割 ***

前景分割、语义分割、实例分割、全景分割(语义+实例)

  • Encoder - Decoder 网络结构:FCN、U-Net(快捷连接)、SegNet

  • DeepLab

    • v1:空洞卷积、全连接条件随机场

    • v2:空洞空间金字塔池化(ASPP,多个扩张率的空洞卷积,解决目标大小差异问题)

    • v3、v3+:BN 层、ASPP 后 1x1 卷积、全局平均池化

9.3 光学字符识别 OCR **

基本模块:文本检测 + 文本识别

  • 基于候选框 / 基于像素分割

    • 基于候选框(锚框):尺寸不敏感,无法适应倾斜角较大,精度较低

    • 基于像素分割(语义分割 + 聚合):更高精度,小尺寸检出率低

  • 端到端(节约计算时间):CRNN(卷积+循环+转录)、FOTS(卷积+检测+旋转+识别)

  • 效果不是非常理想

9.4 图像标注 ***

图片 -> 描述性文字

  • 评测指标:BLEU、ROUGE、METEOR、CIDEr、SPICE

  • 基本思想:前四个基于 N-gram、SPICE 基于 情景图

9.5 人体姿势识别 ***

  • 2D

    • bottom-up:基于部件(关键点 + 匹配 + 连接),速度快,准确率低

      • 实现方式:关键点回归(坐标)、关键点检测(热图,堆叠沙漏网络)

    • top-down:人体检测 + 关键点检测,准确率高,时间 \propto 人数

      • 多任务框架,同时处理 人体检测、关键点检测、人体分割 等

  • 3D

    • 回归方法:L=iIviP(x,y,z)G(x,y,z)22L=\sum_i^I ||v_i P(x,y,z)-G(x,y,z)||_2^2,约束信息,不理想

    • 借助 2D 提升 3D

Last updated