阅读论文《Fast Spatially-Varying Indoor Lighting Estimation》

   2019 cvpr的一篇论文,因为不是做这个方向的,所以有些地方理解只是粗略了解一下,但是感觉论文还是有些inspiration的。论文的核心是不使用额外的几何和深度信息,实现快速的光照估计。首先是使用decoder估计出一个球面谐波(虽然不知道是啥)。其次,球面谐波系数可以被直接使用去实现实时的增亮。同时通过对每个场景不同的估计,最后可以捕获到高频信息。整体结构图如下所示:

   数据集首先做全局和局部的渲染,这个地方没看懂在干啥。网络结构的话,这里是结合了全局和局部的信息做,对于全局分支,这里通过预训练的resnet生成一个特征图,然后一个二值坐标mask,和特征图concat在一起送到decoder里,最后产生一个5120维的向量。对于局部图使用相同结构的encoder,生成512维的向量。然后两个部分的向量连接在一起生成一个1024维的向量。最后通过fc预测球面谐波系数,loss记为$L{i-sh}$。
   由于相似的任务可以被联合训练提升,所以这里还加入了其他的任务。首先是预测低频的传感器深度信息,这里使用$L
{d-sh}$来表示这部分的loss。其次,这里还想对图像分解成反射部分和本质的阴影部分,这里使用重建loss$L{rs-recons}$去表示分解过后的结果还可以还原回原来的图像,以及分解出的反射图和阴影图和它们GT之间的loss,表示为$L{rs-mse}$。最后还希望其能适用于真实的场景,这里通过接在1024fc的地方添加一个梯度倒转层GRL来接一个判别器,区分输入图像是真实还是虚假的。这里使用$L_{da}$。最后将几个loss结合在一起。
   训练的时候,有一半是真实图片一半是合成的图片。对于合成图片使用综合的几个loss,对于真实图片这里只使用判别器的loss。论文没怎么看懂,但是感觉多task学习,合成和仿真一起训练这些idea,还是非常值得借鉴的。

0%