2. 预备知识

Last updated 3 years ago

2.1 数据操作

# 节约内存
Y = Y + X # 重新分配
Y += X # 原地计算
B = A.clone() # 内存复制

计算图
- 将代码分解成操作子
- 将计算表示成一个DAG
自动求导的两种模式
- 正向累积：O(n), O(1)，但每层都需要从头计算
- 反向累积（反向传播，back propagation）：O(n), O(n)，存储正向所有层结果

反向传播例子

反向传播

y = 2 * torch.dot(x, x)
y.backward()
x.grad == 4 * x

分离计算（用于固定网络参数）

y = x * x
u = y.detach()
z = u * x
z.sum().backward()
x.grad == u

Last updated 3 years ago