阅读论文《Learning Linear Transformations for Fast Arbitrary Style Transfer》

   2019 cvpr一篇做style transfer的论文。引入转换矩阵进行风格转换。矩阵通过两个简单的CNN获得,该矩阵可以控制不同level的风格loss,并且具有较高的有效性,保留内容属性。整体结构如下所示:

   整体的编解码网络里,编解码部分是固定的。转换模块从encoder底层输入内容图像和风格图像,生成转换矩阵T,并操作在内容特征上。最后在VGG19预训练网络上计算多层级loss。这里对风格化的问题表示为一个线性转换问题,这里用$\phi_s$来表示提供风格的特征图,$F_d$表示T作用在内容特征上的结果。这里目标是减小两者区别,写为:

对该式进行一系列变换,最终T被表示维持内容和风格特征的协方差。给定一个T,转换后的特征可以通过$F_d+mean(F_s)$获得,从而获得目标风格的平均和协方差统计量。
   为了获得T,这里分别使用两个CNN分别作为内容和风格特征的输入,输出的特征转换为CxC协方差矩阵,随后加上FC层,这里通过这种方式,可以使得内容图像和风格图像不必保持相同的大小。模型的有效性包括,使用前向网络代替矩阵分解,使用T代替多层风格迁移。
   在loss上,这里使用style loss,使用的是gram矩阵z VGG,以及内容loss,是转换后特征和转换前内容特征的loss:

0%