阅读论文《A Content Transformation Block For Image Style Transfer》

2019 CVPR一篇做风格迁移的论文。这篇论文和前面一样，也是注重于对内容的转换。这里在encoder和decoder之间加入内容转换模块，可以控制风格并达到对风格感知的内容edit。在对内容进行调整时，这里需要对特定的物体达到特定的效果，所以这里还利用相似的内容在照片和风格sample里去学习风格如何改变内容，进一步，其将特定的物体扩展到了更广阔的内容里。同时提出一个局部特征正则层去减少artifact和增加分辨率。整体流程图如下所示:

令D是decoder,E是encoder，Y是转换到的风格域，X是输入，那么首先判别器要无法区别真实的风格和生成图像的风格，并且保证场景信息能够保留，所以有:

$L_{cadv} = \mathbb{E}[log(\mit D(y))]+ \mathbb{E}[log(1- \mit D(\rm D(E(x))|s))]$

其次要使得生成图像和输入图像的像素具有内容一致性:

$L_{pxl} = \mathbb{E}[||D(E(x))-x||_2^2]$

当然生成图像和原来的图像不能完全的像素相同，在确保内容相同的条件下，这里要使得它们在encoder空间的形式相同，表示为:

$L_{FP} = \mathbb{E}[||E(D(E(x)))-E(x)||_2^2]$

Content Transformation Block

不同的内容需要被不同的style，所以这里通过从参考风格化的图像里找到相似的内容进行转换。这里通过将encoder的输出通过内容转换模块实现，通过一个判别器去分开真实风格图片的内容和转换图片的内容，在给定内容类别c的前提下，表示如下:

$L_{adv-cont}=\mathbb{E}[log(\mit D_c(E(y)|c))]+ \mathbb{E}[log(1- \mit D_c(\tau(E(x))|c))]$

其中转换模块$\tau$表示为9个残差模块concat在一起。

Local Feature Normalization Layer

这个层不是对整个tensor进行归一化，而是进行的局部操作，这里选取一个window进行归一化操作。详情见论文，同时减少了计算量。

Training Details

训练细节如上图，分为两步。这里关注的内容类别是人，所以分为人和非人两类。两步分别如下：
首先第一步是获得从encoder精确获得的内容提取和学习decoder的注入style，目标如下:

$\min \max \lambda_1 L_{pxl}+ \lambda_2 L_{FP}+ \lambda_3 L_{adv-style}$

其中最后一项是上面的$L_{cadv}$。
第二步是通过转换模块学习特定的style获得特定的内容，如下:

$\min \max \lambda_4 L_{adv-cont}+\lambda_3 L_{adv-style}$