NeRF PyTorch 源码解读

文章目录

1. 体渲染公式推导
- 1.1. $T (t)$ 的推导
- 1.2. $C (r)$ 的推导
2. 体渲染公式离散化
3. 代码解读

1. 体渲染公式推导

如下图所示，渲染图像上点 $P$ 的颜色值 $c$ 是累加射线 $\overrightarrow{OP}$ 在近平面和远平面范围内采样的一系列点的颜色值得到的。
在这里插入图片描述
具体的计算公式如下：
$C(\mathbf{r}) = \int_{t_n}^{t_f} T(t) \sigma(\mathbf{r}(t)) c(\mathbf{r}(t), \mathbf{d}) dt$ 其中：

$\exp ( -\int_{t_n}^t \sigma(\mathbf{r}(s)) ds)$ ， $T (t)$ 为累积透射率，表示光线从起点传播到位置 $t$ 时未被阻挡的概率
$\sigma(\mathbf{x})$ 表示体密度，反映光线在空间位置 $\mathbf{x}$ 处被微小粒子阻挡的概率密度
$\mathbf{r}(t) = \mathbf{o} + t \mathbf{d}$ ， $\mathbf{o}$ 为相机位置， $\mathbf{d}$ 为射线 $\overrightarrow{OP}$ 的方向向量，即用 $\mathbf{r}(t)$ 表示射线 $\overrightarrow{OP}$
$t_n$ 和 $t_f$ 分别表示近平面和远平面
$C(\mathbf{r})$ 表示射线 $\overrightarrow{OP}$ 在渲染图像上点 $P$ 的颜色值

现在来推导一下上述的体渲染公式，分为两部分： $T (t)$ 和 $C(\mathbf{r})$ 。

1.1. $T (t)$ 的推导

假设事件 $A$ 表示光线在区间 $[0, t + d t]$ 没有被阻挡，事件 $B$ 表示光线在区间 $[0, t]$ 没有被阻挡，事件 $C$ 表示光线在区间 $(t, t + d t]$ 没有被阻挡，则有 $P (A) = P (B) P (C)$ ，其中 $P (A) = T (t + d t)$ ， $P (B) = T (t)$ ， $\sigma(t)dt$ 。
值得注意的是，由于 $\sigma(t)$ 表示光线在空间位置 $t$ 处被微小粒子阻挡的概率密度，由于 $d t$ 非常小，因此可以将 $\sigma(t)dt$ 近似为光线在空间位置 $t + d t$ 处被微小粒子阻挡的概率，则光线在空间位置 $t + d t$ 没有被阻挡的概率为 $\sigma(t)dt$ 。
即有：
$\sigma(t)dt)$ 进一步转换可得：
$\dfrac{T(t + dt) - T(t)}{dt} = - T(t)\sigma(t)$ 当 $d t \to 0$ 的时候，有 $\dfrac{T(t + dt) - T(t)}{dt}=\dfrac{dT}{dt}$ ，因此可得微分方程：
$\dfrac{dT}{T(t)} = - \sigma(t)dt$ 现在我们要计算在区间 $t_n, t]$ 中光线未被阻挡的概率 $T(t_n → t)$ ，有
$\begin{align*} \int_{t_n}^{t} \frac{dT}{T(t)} &= -\int_{t_n}^{t} \sigma(s) ds \\ \ln T(t) \bigg|_{t_n}^{t} &= -\int_{t_n}^{t} \sigma(s) ds \\ T(t_n→t) = T(t) - T(t_n) &= \exp(-\int_{t_n}^{t} \sigma(s) ds) \end{align*}$ $T (t)$ 随路径长度增加而指数衰减，表示光线越深入场景，越可能被遮挡（透射率降低）。如果路径上有不透明物体，后续区域的颜色贡献会被完全遮挡（即 $T (t) \to 0$ ）。这与物理现象一致：光线被前景物体遮挡后，无法看到背景物体。

1.2. $C (r)$ 的推导

在 NeRF 的体积渲染模型中，颜色贡献仅来自光子与介质粒子的碰撞（相互作用），即 $\sigma(\mathbf{r}(t)) ≠ 0$ 。光线从近平面 $t_n$ 到远平面 $t_f$ 累积的总颜色为 $C(\mathbf{r})$ 。在光线路径上，区间 $[t, t + d t]$ 内的颜色贡献 $d C$ 由以下三部分组成：

光线达到 $t$ 的概率： $T (t)$
在 $[t, t + d t]$ 内光线被阻挡（即光子与介质粒子的碰撞）的概率： $\sigma(\mathbf{r}(t))dt$
相互作用的颜色贡献： $c(\mathbf{r}(t), \mathbf{d})$

则有：
$\sigma(\mathbf{r}(t))dt·c(\mathbf{r}(t), \mathbf{d})$ 对 $d C$ 从 $t_n$ 到 $t_f$ 进行积分可得：
$C(\mathbf{r}) = \int_{t_n}^{t_f} T(t) \sigma(\mathbf{r}(t)) c(\mathbf{r}(t), \mathbf{d}) dt$ 如果光线在路径 $t_n → t_f$ 上未发生任何碰撞（所有 $\sigma(\mathbf{r}(t)) = 0$ ），则 $T(t_f) = 1$ ，且 $C(\mathbf{r}) = 0$ 。但在实际应用中，NeRF 通常引入背景颜色（例如环境光或者天空）作为默认值，则 $C(\mathbf{r})$ 的表达式改为：
$C(\mathbf{r}) = \int_{t_n}^{t_f} T(t) \cdot \sigma(\mathbf{r}(t)) \cdot c(\mathbf{r}(t), \mathbf{d}) dt + T(t_f) · \mathbf{c_{background}}$ 这种情况下，即使没有碰撞点，背景颜色仍会作为最终像素值的一部分。

2. 体渲染公式离散化

由于计算机只能处理离散值，因此需要将前面推导的体渲染公式进行离散化。
首先，我们将区间 $t_n, t_f]$ 划分成 $N$ 个等距的小区间，从每一个小区间中随机取样一个点作为采样点，如下所示：
$t_i \sim U\left[ t_n + \frac{i-1}{N}(t_f - t_n), \, t_n + \frac{i}{N}(t_f - t_n) \right]$ 假设采样的 $N$ 个点分别为 $t_1,t_2,...,t_N$ ，现在计算两个采样点 $t_i$ 和 $t_{i + 1}$ 之间的颜色累积值 $C_i$ ，则有
$\begin{align*} C_{i} &= \int_{t_i}^{t_{i + 1}} T(t_i→t)\cdot\sigma(t)\cdot c(\mathbf{r}(t), \mathbf{d}) dt \\ &=\sigma(t_i) \cdot c(t_i)\int_{t_i}^{t_{i + 1}} T(t_i→t) dt \\ &=\sigma(t_i) \cdot c(t_i)\int_{t_i}^{t_{i + 1}} \exp(-\int_{t_i}^{t}\sigma(s)ds) dt \\ &=\sigma(t_i)\cdot c(t_i)\int_{t_i}^{t_{i + 1}}\exp(-\sigma(t_i)(t - t_i)) dt \\ &=\sigma(t_i) \cdot c(t_i) \left. \frac{\exp{(-\sigma(t_i) (t - t_i))}}{-\sigma(t_i)} \right|_{t_i}^{t_{i + 1}} \\ &=c(t_i) \cdot (1 - \exp(-\sigma(t_i)(t_{i + 1} - t_i))) \end{align*}$ 值得注意的是，由于 $d = t_{i + 1} - t_i$ 的数值很小，因此这里`假设区间 $t_i, t_{i + 1}]$ 的体密度为常量 $\sigma(t_i)$ ，颜色值也为常量 $c(t_i)$ 。
$\begin{align*} C(\mathbf{r}) &= \sum_{i=1}^{N} \int_{t_i}^{t_{i + 1}} T(t) \cdot \sigma(t) \cdot c(\mathbf{r}(t), \mathbf{d}) dt \\ &= \sum_{i=1}^{N} \int_{t_i}^{t_{i + 1}} T(0 → t_i) \cdot T(t_i → t) \cdot \sigma(t) \cdot c(\mathbf{r}(t), \mathbf{d}) dt \\ &= \sum_{i=1}^{N} T(0 → t_i) \int_{t_i}^{t_{i + 1}} T(t_i → t) \cdot \sigma(t) \cdot c(\mathbf{r}(t), \mathbf{d}) dt \\ &= \sum_{i=1}^{N} T(0 → t_i) \cdot c(t_i) \cdot (1 - \exp(-\sigma(t_i)(t_{i + 1} - t_i))) \end{align*}$ 不妨设 $T_i = T(0→t_i)$ ， $c_i = c(t_i)$ ， $\delta_i = t_{i + 1}-t_i$ ， $\sigma_i = \sigma(t_i)$ ，则上述公式可以简化为：
$C(\mathbf{r}) = \sum_{i=1}^{N} T_i \cdot (1 - \exp(-\sigma_i \delta_i)) \cdot c_i$ 对 $T (t)$ 也进行离散化，根据上述公式，我们需要知道 $T(t_i)$ 的离散化公式，如下：
$T_i = T(t_i) = T(0 \to t_i) = \exp \left( -\int_0^{t_i} \sigma(t) \, dt \right) = \exp \left( \sum_{j=1}^{i - 1} -\sigma_j \delta_j \right)$ 注意这里的 $j$ 只取值到 $i - 1$ 。
我们可以对体渲染公式做进一步简化，令 $\alpha_i = 1 - \exp(-\sigma_i \delta_i)$ ，则有：
$T_i = \exp \left( \sum_{j=1}^{i - 1} -\sigma_j \delta_j \right) = \prod\limits_{j = 1}^{i - 1}\exp(-\sigma_j \delta_j) = \prod\limits_{j = 1}^{i - 1}(1 - \alpha_j) = (1-\alpha_1)(1-\alpha_2)···(1-\alpha_{i - 1})$ $C(\mathbf{r}) = \sum_{i=1}^{N} (1-\alpha_1)(1-\alpha_2)···(1-\alpha_{i - 1})\alpha_i \cdot c_i = \sum_{i=1}^{N} c_i \alpha_i \prod_{j=1}^{i-1} (1 - \alpha_j)$ 令 $w_i = \alpha_i \prod_{j=1}^{i-1} (1 - \alpha_j)$ ，则 $w_i$ 可以看做是采样点 $i$ 对最终颜色的贡献权重。
3DGS 中论文给出的渲染公式如下：
$\sum_{i \in N} c_i \alpha_i \prod_{j=1}^{i-1} (1 - \alpha_j)$ 可以看出两者具有一样的数学表达式。

3. 代码解读

raw2outputs 函数实现了体渲染的计算。
1）计算采样点之间的间距 $\delta_i = t_{i + 1} - t_{i}$

dists = z_vals[..., 1:] - z_vals[..., :-1]
dists = torch.cat([dists, torch.Tensor([1e10]).expand(dists[..., :1].shape)], -1)  # [N_rays, N_samples]
dists = dists * torch.norm(rays_d[..., None, :], dim=-1)

2）将模型预测的原始颜色值(raw[…, :3])通过 $s i g m o i d$ 映射到 $[0, 1]$ 范围

rgb = torch.sigmoid(raw[..., :3])  # [N_rays, N_samples, 3]

3）在训练时向体积密度 $\sigma$ 加噪声，防止过拟合

noise = 0.
if raw_noise_std > 0.:noise = torch.randn(raw[..., 3].shape) * raw_noise_std

4）计算 $\alpha_i = 1 - \exp(-\sigma_i\delta_i)$

raw2alpha = lambda raw, dists, act_fn=F.relu: 1. - torch.exp(-act_fn(raw) * dists)
alpha = raw2alpha(raw[..., 3] + noise, dists)  # [N_rays, N_samples]

5）计算每一条射线上的所有采样点的权重 $w e i g h t s [i]$ ，并且 $\alpha_i \prod_{j=1}^{i-1} (1 - \alpha_j)$

weights = alpha * torch.cumprod(torch.cat([torch.ones((alpha.shape[0], 1)), 1. - alpha + 1e-10], -1), -1)[:, :-1]
rgb_map = torch.sum(weights[..., None] * rgb, -2)  # [N_rays, 3]

现在简单模拟一下这个过程的计算：

alpha = [[0.1, 0.2], [0.3, 0.4]
]1 - alpha = [[0.9, 0.8], [0.7, 0.6]
]torch.cat([torch.ones((alpha.shape[0], 1)), 1. - alpha + 1e-10], -1) 的输出为： 
[[1, 0.9, 0.8], [1, 0.7, 0.6]
]
torch.cumprod(torch.cat([torch.ones((alpha.shape[0], 1)), 1. - alpha + 1e-10], -1), -1) 的输出为：
[[1, 1*0.9, 1*0.9*0.8],[1, 1*0.7, 1*0.7*0.6]
]torch.cumprod(torch.cat([torch.ones((alpha.shape[0], 1)), 1. - alpha + 1e-10], -1), -1)[:, :-1] 的输出为：
[[1, 0.9],[1, 0.7]
]alpha * torch.cumprod(torch.cat([torch.ones((alpha.shape[0], 1)), 1. - alpha + 1e-10], -1), -1)[:, :-1] 的输出为：
[[0.1*1, 0.2*0.9] → [0.1, 0.18],[0.3*1, 0.4*0.7] → [0.3, 0.28]]

6）计算深度图

depth_map = torch.sum(weights * z_vals, -1)
disp_map = 1. / torch.max(1e-10 * torch.ones_like(depth_map), depth_map / torch.sum(weights, -1))

在 NeRF 中通过加权平均所有采样点的深度，得到每条射线的有效深度。有效深度可以看作是光线穿过场景时，最可能与物体表面相交的深度。有效深度的计算公式如下：
$\bar{z} = \sum_{i=1}^{N} w_i \cdot z_i$ 假设一条光线穿过一个简单的场景（如一个立方体）：
采样点分布如下：

采样点 1：位于立方体的前方， $\sigma_1$ 很小， $w_1$ 接近于 0
采样点 2：位于立方体的内部， $\sigma_2$ 很大， $w_2$ 显著增大
采样点 3：位于立方体的后方， $\sigma_3$ 很小， $w_3$ 接近于 0

则该光线的有效深度为 $\bar{z} ≈ w_1t_1 + w_2t_2 + w_3t_3 ≈ w_2t_2$ ，即有效深度集中在立方体内部的采样点，符合直觉。

7）计算视差图
在 NeRF 中通过深度倒数计算视差，并添加极小值 1e-10 防止除零，计算公式如下：
$\text{disp} = \frac{1}{\max(\epsilon, \bar{z}_{norm})}$ 其中， $\bar{z}_{norm} = \dfrac{\bar{z}}{\sum_{i=1}^{N} w_i}$ 。
双目相机中视差 $d$ 和深度 $D$ 的关系如下：
$\dfrac{Bf}{Z}$ 其中：

$B$ ：双目相机的基线长度（两相机中心的水平距离）
$f$ ：相机焦距
$Z$ ：场景点的深度
$d$ ：视差（同一场景点在左右图像中的像素偏差）

$\dfrac{Bf}{Z}$ 计算的是绝对深度（实际物理距离）， $B$ 和 $f$ 两个参数都需要人为标定。
而 NeRF 中计算视差的公式为 $d=\dfrac{1}{Z}$ ，这计算的是相对深度。相对深度描述的是场景中物体之间的相对远近关系，但不提供物体到相机或传感器的实际物理距离。
相对深度图缺乏真实尺度，但可以通过已知的基准点（如标定板）计算比例因子 $\alpha$ ，将相对深度映射到绝对深度，数学公式如下：
$\alpha × 相对深度$