阅读论文《Neural Stereoscopic Image Style Transfer》

这是2018 ECCV的一篇论文，主要讲的是双目风格迁移。这里主要说一下个人的理解。
如果有双目图像，分别进行风格迁移会导致严重的不一致性，因为风格迁移本省是一个不稳定的过程。所以这篇文章主要使用以下点去做双目的风格迁移：1.双路径网络对左右图像分别进行处理。2.使用特征增强模块去合理的融合特征。3.使用多层loss去保持输出图像的风格一致性。论文的方法主要包括一个风格转换网络和一个loss网络，如下所示：

Dual Path Stylizing Network

首先说一下风格转换网络，包括一个encoder,一个特征增强模块和一个decoder。如下所示，这里encoder和decoder网络对于两路图像是权重共享的。

对于特征增强模块，如下所示，用左路做示例。这里先通过一个深度估计网络得到一个disparity，然后将深度图和$F^R$进行warp，使得和$F^L$对齐，为$W’(F^R)$。当然这里没有将$F^L$和$W’(F^R)$直接concat,而是先通过一个引导网络refine$W’(F^R)$,产生refine的右特征$F_r^R$。这里深度估计网络输入的是左右图的concat,是一个预训练好的网络。

这里引导的门网络，输入是左右两张图，然后使用深度图warp，计算warp之后的图像和左图像的绝对差，为$D^L=|r(X^L)-W’(r(x^R)|$，将其输入gate sub网络，得到单通道的$G^L$用来refine上面warp后的右特征。这一步个人感觉是为了消除左右两边的不一致性。最后refine的右特征为$F_r^R=W’(F^R) \odot G^L+F^L\odot(1-G^L)$。其和$F^L$warp后为左边的输出特征$A^L$，送入decoder。

Loss Network

这里的loss是两部分，一部分是学习style，还有一部分是使得左右两部分具有一致性。如下图所示：

其中perceptual loss包括一个基于VGG网络的loss和一个基于Gram矩阵的loss，不赘述。
Multi-layer View Loss包括输出图像之间的一致性，以及特征一致性的网络，从输出图像和特征两个层面进行约束，这里不赘述，详情看论文。