ReLitLRM: Generative Relightable Radiance for Large Reconstruction Models 论文解读
目录
一、概述
二、相关工作
1、逆渲染
2、大型重建模型
3、基于图像的可重新照明和扩散模型
三、ReLitLRM
1、端到端的训练
2、几何特征提取
3、外观特征提取
4、损失函数
5、疑惑
一、概述
该论文提出ReLitLRM生成式大型重建模型,实现从仅4-8张未知光照下的输入图像中高效重建出高质量的可重新照明的3D物体。ReLitLRM采用了一种前馈式transformer架构,与去噪扩散概率模型相结合,有效地分解几何和外观,解决材质和照明之间的歧义,捕捉阴影和高光中的多模态分布。
(1)使用基于确定性的几何的transformer重建模型,并与基于扩散的可重新照明外观生成器相结合。将几何形状从外观形状中剥离开,更好地解决光照导致的不确定性。
(2)提出一种基于前馈Transformer的ReLitLRM生成式大型重建模型,可以在4-8张有限图像中高效重建出可重新照明的高质量3D物体
(3)与现有的优化型逆渲染相比,使用输入图像和处理时间更少。
二、相关工作
1、逆渲染
逆渲染:从图像中恢复内在的场景属性--几何、材料反射、照明,来实现可重新照明(relight,不同光照下均可渲染)和新视角生成。
传统方法利用基于物理的的渲染方程,通常要在受控制的光照下密集捕捉图像。
近期随着3DGS和NeRF的发展,基于学习的逆渲染方法依靠这些神经表示方法用来分解场景属性,并利用可微分的渲染来处理优化和训练过程。
然而这些方法都需要密集的输入图像和单一场景下的密集优化来处理,这也造成了可扩展性的限制,以及需要确定的照明和材料。
该论文考虑只使用稀疏的4-8张图像,不需要单一场景的优化,来重建可重新照明的3D模型。利用一个基于Transformer的架构并引入3DGS表示的神经隐式辐射场,从而有效的解开了几何、外观、光照的问题实现未知光照下的高质量渲染,也满足了扩展性和实用性。
2、大型重建模型
LRM系列持续使用基于Transformer的前馈模型。如GS-LRM,Single-view LRM等考虑引入可扩展的多视图,来实现稀疏输入下的细节重建。
该论文继续扩展LRM,将基于Transformer的架构与3DGS的表示结合,并引入可重新照明的重建技术,提高可扩展性。
3、基于图像的可重新照明和扩散模型
扩散模型发展,从Stable Diffusion到ControlNet,另外Zero123也提出将扩散模型引入三维结构的理解。
可重新照明,早期依靠神经网络,近期使用基于肖像的方法,增强真实性和光照控制。但是由于受到显式场景分解影响,限制了适应性。另外利用扩散模型精确的照明,均限制为单视图输入(话说这不是更强吗,单视图都能控光照),如DiLightNet,IC-Light,Neural Gaffer。
三、ReLitLRM
ReLitLRM可以由两个部分组成,几何特征提取,外观特征提取。两者均使用Transformer的模块,并端到端进行训练。
1、端到端的训练
给定N张图像,以及对应的Plucker射线
,将这两者在通道方向进行拼接。之后拆分成
大小的patch块,并线性排列生成序列
。
之后将序列重复的丢入端到端的Transformer模块进行训练轮,得到特征序列
。
再将特征序列经过线性回归,得到3DGS的参数。
2、几何特征提取
首先给定拼接好Plucker射线的图像,并输入到Geometry Transformer(就是GS-LRM的模型)中输出几何特征(3DGS参数的几何特征)x_inp_geo。
GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting 论文解读-CSDN博客
3、外观特征提取
首先从HDR贴图中提取光照信息,分别使用对数函数和混合对数-伽马函数提取暗区域和亮区域的环境光照图特征,并且拼接暗区域和亮区域的特征图,经过GeLU激活通过线性回归得到光照特征。
之后使用DDPM在合成图像上加以噪声,生成重照明的图像。(扩散模型准备)
将重照明的加噪图像叠加plucker射线得到 [b, n', h, w, 9]的图像输入张量,并经过卷积和一个reshape操作,得到 [b, n_relight_token, d]的重照明图像特征token序列。
将几何特征、光照特征、重照明图像特征、时间帧拼接,并LN归一化后,送入appearance transformer中,输出辐射特征x_inp_radiance。
对几何特征进行LN归一化+反卷积得到每个像素点3D高斯几何参数x_geo。
对辐射特征进行LN归一化+反卷积得到3D高斯颜色信息(球谐函数-75维)sh_weight。
之后从x_geo高斯几何特征转换出几何信息,包括位置,旋转参数,缩放参数,不透明度等。
4、损失函数
损失函数为渲染图像和原图像之间的L2范数和LPIPS损失。
5、疑惑
对于几何Transformer和外观Transformer在论文中并没有写的很清晰,是用了两个传统的transformer跑一遍tokens?内部有没有用到什么奇奇怪怪的注意力机制也没有提到。
参考:RelitLRM: Generative Relightable Radiance for Large Reconstruction Models