本仓库是在手写Nerf的基础上,将NeRF作者原有的工作重构出一个最小化实现的版本,以加深理解
https://github.com/yenchenlin/nerf-pytorch
https://github.com/bmild/nerf
https://github.com/NVlabs/instant-ngp
首先,请确保你的电脑正确安装了CUDA
然后,按照下面的指令配置虚拟环境
$ git clone https://github.com/LUORANCHENG/NeRF_Replication.git
$ cd NeRF_Replication
$ conda create -n nerf python=3.9
$ conda activate nerf
$ pip install -r requirements.txt
在浏览器打开http://cseweb.ucsd.edu/~viscomp/projects/LF/papers/ECCV20/nerf/nerf_example_data.zip下载数据集
把下载好的数据集解压,然后把nerf_synthetic文件夹放到data目录下。该数据集提供了一个乐高积木的不同角度图像和对应的相机位姿数据,用于NeRF进行训练。
在项目根目录执行``train_NeRF.py```开始训练NeRF
python train_NeRF.py --dataset_root ./data/nerf_synthetic/lego --transforms_file transforms_train.json
其中:
- --dataset_root为数据集目录路径
- --transforms_file为相机位姿数据文件路径
训练好的模型会保存在项目根目录下的ckpt文件夹下
在项目的根目录执行make_video.py进行推理:此脚本会在rotate360文件夹下生成重建物体360度的不同视角图,然后在videos文件夹下将不同的视角图拼接成视频
python make_video.py --ckpt ckpt/100000.pth --data_path "data/nerf_synthetic/lego" --transforms_file transforms_train.json
其中:
- --ckpt为模型路径
- --data_path为数据集路径
- --transforms_file为相机位姿数据路径
使用自己的设备(手机和相机都行)围绕目标物体拍摄时长大约1分钟的视频,帧数建议选30帧,视频格式建议为.mp4
然后使用项目根目录下的video2img.py脚本将视频分解为一张张图像
python video2img.py --video_path 视频路径 --output_dir 输出路径 --scale_factor 0.25
其中:
- --scale_factor表示缩放倍数,0.25表示将图片等比例缩小4倍。
下载并安装colmap,这个是用来估计相机位姿的:colmap下载地址
下一步我们需要使用instant-ngp中的colmap2nerf.py来估计相机姿态数据:
instant-ngp源码,下载成功后,在终端输入以下指令
$ conda create -n ngp -y python=3.9
$ conda activate ngp
$ pip install -r requirements.txt
配置好ngp的环境后需要使用函数colmap2nerf.py来估算相机的位姿数据
python scripts/colmap2nerf.py --colmap_matcher exhaustive --run_colmap --aabb_scale 16 --colmap_camera_model SIMPLE_PINHOLE --images [图片路径]
最后会在根目录下生成一个transforms.json文件,把这个文件移动到自己的数据集目录下
python train_NeRF.py --dataset_root 数据集路径 --transforms_file transforms.json
通读整篇NeRF论文,我们可以发现整个NeRF模型的结构如下:
NeRF模型结构:
-
输入:5D向量(x, y, z, theta, phi)
-
输出:4D向量(密度, 颜色)
-
模型:8层MLP
那么我们现在就遇到一些疑问:
为了解答这两个问题:我们猜测会有一个从图像转为5D向量的预处理过程。同样的,也会有一个把输出的4D图像转换为2D图像的后过程。
首先,我们先来了解一下这个输入的5D向量和输出的4D向量:
输入的5D向量实际上是粒子的空间位姿(x, y, z, theta, phi)
输出的4D向量实际上是粒子对应的颜色以及密度。
看到这里,我们又遇到了另一个问题:
相信你们看到这里,又又会遇到一个新的问题:
我们主要会用到三个坐标系:
世界坐标系:对应下图中的
相机坐标系:对应下图中的
归一化相机坐标系:对应下图中的
像素坐标系:对应下图中的
在了解完坐标系后我们再来看我们的光线是怎么来的:光线是由一张图像和对应的相机位姿计算出来的,一条光线由原点,方向和距离来表示,记为
下面我们来详细介绍一下如何从一张图像和对应的相机位姿来计算光线:
最后,我们用
然后整张图像的shape为H * W,每个像素点都有一条光线,所以一共会有H * W条光线,所以最后d的shape为
但是在实际过程中,我们会选取batch_size条光线进行处理,所以实际上d的shape为
到现在为止,我们已经确定了o和d,下面我们来看一下t是怎么确定的:
理论上:t从0到
实际上:t在计算处理的时候是离散的
方法:分别设置两个变量near=2和far=6,在near和far之间均匀采样64个点,记作pts,shape为(1024, 64, 3)
这个pts就是我们前面所说的粒子
最后再拼接上前面的到的光线方向d(1024, 3),拼接成6D的向量输入到模型中(所以实际传入的不是5D向量,而是6D的向量!)
到这里,我们就可以回答问题3和问题4和问题1了
我们看到这里,又会遇到一个新的问题,我们从下面的模型结构图中可以看到,输入模型的分别是一个60维的向量和一个24维的向量,如下图所示:
回答:作者通过实验发现,当只输入粒子的3D位置和3D视角时,建模结果会丢失细节,原因是缺乏高频信息.
作者为了解决这个问题,引入了位置编码:
- p需要归一化[-1, 1]
- 对于空间坐标x, L=10,
$\gamma(X)$ 是60D - 对于视角坐标d, L=4,
$\gamma(d)$ 是24D - 在代码中,加上初始值:
$\gamma(X)$ 是63D,$\gamma(d)$ 是27D
实际代码中的模型结构图:
NeRF(
(pts_linears): ModuleList(
(0): Linear(in_features=63, out_features=256, bias=True)
(1): Linear(in_features=256, out_features=256, bias=True)
(2): Linear(in_features=256, out_features=256, bias=True)
(3): Linear(in_features=256, out_features=256, bias=True)
(4): Linear(in_features=256, out_features=256, bias=True)
(5): Linear(in_features=319, out_features=256, bias=True)
(6): Linear(in_features=256, out_features=256, bias=True)
(7): Linear(in_features=256, out_features=256, bias=True)
)
(views_linears): ModuleList(
(0): Linear(in_features=283, out_features=128, bias=True)
)
(feature_linear): Linear(in_features=256, out_features=256, bias=True)
(alpha_linear): Linear(in_features=256, out_features=1, bias=True)
(rgb_linear): Linear(in_features=128, out_features=3, bias=True)
)
到这里,我们就可以回答问题5了
好了,现在我们已经有了模型,我们要如何去计算这个模型的loss呢?
- GT是图片某一像素的RGB
- 将该像素对应光线上的粒子颜色进行求和
- 粒子的颜色和:该像素的预测值
- 粒子的颜色和与该像素颜色做MSE
$\ L = \sum_{r \in R} \left| \hat{C}(r) - C(r) \right|_2^2 $ - R是每个batch的射线(1024条)
到这里,我们就可以回答问题6了
但是我们又遇到一个新的问题:
-
$\ T(s) $ :在s点之前,光线没有被阻碍的概率 -
$\ \sigma(s) $ :在s点处粒子的密度信息,密度越大,光线越有可能被阻拦 -
$\ C(s) $ :在s点处,粒子发出颜色光 - 各点的颜色和概率密度已知,先求
$\ T(s) $
上面这种情况是在连续情况下将一条射线上的粒子的颜色进行求和,但是计算机只能处理离散化的数据,所以下面我们需要将上面的公式进行离散化处理:
离散化:
- 将光线[0, s]划分为N个等间距区间
$\ [T_n \rightarrow T_{n+1}] $ - n=0, 1, 2, ..., N
- 间隔长度为
$\ \delta_n $ - 假设区间内密度
$$\ \sigma(n) $$ 和颜色$$\ C(n) $$ 固定
关于如何从连续的式子推出离散的式子,这里就不细说了
然后在实际的代码实现中,还需要往前继续化简一步:
所以我们最终可以推导出将一条光线上的粒子颜色进行累加的公式:
下面给出了在代码实现中将粒子颜色累加的完整思路:
1.不透明度
- 不透明度
$\alpha_n$ 表示采样点$n$ 对光线的遮挡程度。具体计算方法是:
- 这里,sigma_n是粒子的密度, delta_n是光线在这个点上的步长距离。密度越大,步长越长,透明度就越低(不透明度越高)
2.权重
- 每个采样点的权重
$W_n$ 表示该点对最终颜色的贡献度。权重$W_n$ 的计算公式为:
- 这里的
$\prod_{i=0}^{n-1} (1 - \alpha_i)$ 表示光线在前$n-1$ 个点都没有被完全遮挡的概率。 - 也就是说,权重
$W_n$ 结合了当前点的的不透明度$\alpha_n$ 和之前所有点的透过率。
3.颜色累加
- 最终的颜色累加是将每个点的颜色
$C_n$ 按照权重$W_n$ 加权平均求和得到的:
- 这样累加的结果就是光线最终看到的颜色。
到这里,我们就可以回答问题7和问题2了
现在我们还有一个问题没有解决
回答:可以通过粗模型输出得到一个概率,然后通过这个概率去重新在这条光线上进行采样128个粒子,与之前的64个粒子加在一起,即每条光线采样192个粒子
- 可以根据概率密度进行再次采样
- 由两个模型组成
- 粗模型:输入均匀采样粒子,输出密度
- 细模型:根据密度,二次采样
- 最后输出:采用模型2的输出
- 粗模型和细模型结构相同
举个例子:
已知条件
- bins(位置):[0.0, 1.0, 2.0, 3.0, 4.0]
- weights(权重):[0.1, 0.2, 0.4, 0.15, 0.15]
我们希望在这些位置上重新采样,并将采样集中在权重较高的位置。
步骤 1:计算PDF(概率密度函数)
首先,将权重归一化以得到 PDF。这个例子中的权重已经是归一化的(总和为 1),所以 PDF 和权重相同:
步骤 2:计算CDF(累积分布函数)
接下来,我们计算 CDF,即 PDF 的累加和:
步骤 3:生成随机数并找到对应的CDF区间
假设我们希望采样 2 个点,因此生成 2 个均匀分布在[0, 1]之间的随机数:
- 随机数
$u_1=0.25$ - 随机数
$u_2=0.8$
接下来,使用逆 CDF 方法,找到每个随机数落在哪个 CDF 区间内。
对于随机数
- 查看CDF列表,发现0.25落在CDF[0.1,0.3]区间内,对应的bins区间是[0.0, 1.0]
- 所以,
$u_1=0.25$ 对应的bins区间是[0.0, 1.0]。
对于随机数
- 查看CDF列表,发现0.8落在 CDF[0.7,0.85]区间内,对应的bins区间是[2.0, 3.0]
- 所以,
$u_2=0.8$ 对应的 bins 区间是 [2.0, 3.0]。
步骤 4:插值计算采样位置
对于每个落入的区间,通过插值计算随机数对应的具体采样位置。
插值计算
1.计算插值比例t:
2.计算采样位置:
因此,随机数
插值计算
1.计算插值比例t:
2.计算采样位置:
因此,随机数
最终结果:通过二次采样,我们得到两个新的采样位置:
$sample_1=0.75$ $sample_2=2.6667$
到这里,我们就可以回答问题8了
最后我们再来看看模型是怎么进行推理的
假设我们输入的图像是400 * 400的,则一共会有400 * 400条光线,即:
输入:
- 400 * 400条光线上分别采样64个点
输出:
- [400 * 400 * 192, 4]
- 进行体渲染
总结
前处理:
- 将图片中的每个像素,通过相机模型找到对应的射线;
- 在每条射线上进行采样,得到 64 个粒子;
- 对batch_size * 64个粒子进行位置编码;
- 位置坐标为 63D 和方向向量为 27D。
模型1:
- 8层MLP,
- 输入为(batch_size, 64, 63)和(batch_size, 64, 27)
- 输出为(batch_size, 64, 4)
后处理1:
- 计算模型1的输出,对射线进行二次采样;
- 每条射线上共采样192个粒子。
模型2:
- 8层MLP,
- 输入为(batch_size, 192, 63)和(batch_size, 192, 27)
- 输出为(batch_size, 192, 4)
后处理2:
- 将模型 2 输出通过体渲染,转换为像素。





