machine-learning

⌘Ctrlk

9. 计算机视觉 CV

9.1 物体检测 ***

检测图像中是否存在给定类别的物体，如果存在，返回 bounding box

one / two-stage：独立地、显式地提取候选区域
- one-stage：效率优势，端到端 CNN 预测类别 / 位置
- two-stage：精度优势，无监督选择性搜索 + SVM 分类
- 原因：one 大量锚框导致不均衡，two 修正后质量更高，two 第二步计算量大
two-stage： R-CNN、SPPNet、Fast R-CNN、Faster R-CNN
one-stage： YOLO、YOLOv2、YOLO9000、YOLOv3
- $S\times S$ 方格，每个方格检测中心位于该方格的物体
- 每个放个预测 B 个边界框，中心位置 + 高宽 + 置信度
小物体检测
- 模型设计：特征金字塔、沙漏结构，减少下采样
- 训练：提高小物品样本比例，数据增强
- 尝试更大图像尺寸

9.2 图像分割 ***

前景分割、语义分割、实例分割、全景分割（语义+实例）

Encoder - Decoder 网络结构：FCN、U-Net（快捷连接）、SegNet
DeepLab
- v1：空洞卷积、全连接条件随机场
- v2：空洞空间金字塔池化（ASPP，多个扩张率的空洞卷积，解决目标大小差异问题）
- v3、v3+：BN 层、ASPP 后 1x1 卷积、全局平均池化

9.3 光学字符识别 OCR **

基本模块：文本检测 + 文本识别

基于候选框 / 基于像素分割
- 基于候选框（锚框）：尺寸不敏感，无法适应倾斜角较大，精度较低
- 基于像素分割（语义分割 + 聚合）：更高精度，小尺寸检出率低
端到端（节约计算时间）：CRNN（卷积+循环+转录）、FOTS（卷积+检测+旋转+识别）
效果不是非常理想

9.4 图像标注 ***

图片 -> 描述性文字

评测指标：BLEU、ROUGE、METEOR、CIDEr、SPICE
基本思想：前四个基于 N-gram、SPICE 基于情景图

9.5 人体姿势识别 ***

2D
- bottom-up：基于部件（关键点 + 匹配 + 连接），速度快，准确率低
  - 实现方式：关键点回归（坐标）、关键点检测（热图，堆叠沙漏网络）
- top-down：人体检测 + 关键点检测，准确率高，时间 $\propto$ 人数
  - 多任务框架，同时处理人体检测、关键点检测、人体分割等
3D
- 回归方法： $L=\sum_i^I ||v_i P(x,y,z)-G(x,y,z)||_2^2$ ，约束信息，不理想
- 借助 2D 提升 3D

Previous8. 自动化机器学习 AutoML Next10. 自然语言处理 NLP

Last updated 3 years ago