阅读论文《 Real-Time Neural Style Transfer for Videos》

   这是2017腾讯AI Lab的一篇论文,当前阶段主要关注空间上图像质量的风格转换,对于时间方面的后续在做视频时再补充。

空间风格转换

   和DPED一样,论文的idea是将网络分成了生成网络和损失网络两个部分,生成网络用来生成图片,损失网络用来产生损失函数方便训练。下面对这两个部分分别介绍一下:

生成网络部分

   在生成网络部分,这里应该是用了之前一些论文的思想,使用三个卷积层先将图像分辨率降为原来的四分之一,然后跟随五个残差快使图像迅速收敛,最后再加两个反卷积和一个卷积层生成一个和输入分辨率相同的图片。网络结构如下图所示:


   优点:使用较少的图像通道减少模型尺寸,且方便产生时间序列,Johnson等人提出的风格化网络[12] 有5个残差块,每个残差块产生128个特征图。本文通过实验发现使用较少数量的特征映射会产生视觉上相似的结果,同时为存储模型和缩短推理时间节省大量空间。

损失函数部分

   这里只考虑空间损失部分,文章将空间损失分成了内容损失,风格损失和总方差正则化损失。分别定义如下:
   内容损失:

   这里的损失函数是定义在vgg19的特征之上的,$\phi(x)$表示的是第l层的特征,C、H、W表示的是该处特征的维数,很显然,这个内容损失表示的是输入图x和输出图像$x^d$在l层之间的差距,文章使用了和DPED相同的relu4_2层计算损失。
   风格损失:这里首先定义了Gram矩阵,如下:

   这里i,j指的是通道,通过这个函数,计算一张图像通道的内积,得到哪些通道之间倾向于一起被激活,损失函数定义如下:

其中s表示的是目标图像。
   为了全面捕捉不同尺度的风格信息,论文使用损失网络不同层次的一组格拉姆矩阵来计算整体风格损失。这里选择ReLU1_2,ReLU2_2,ReLU3_2,ReLU4_2作为计算风格损失的层次。
   此外为了获得空间平滑,这里还加了一个方差正则化损失:

   最后,将上述损失函数合在一起,构成了一个整体空间损失函数,如下:

   通过对这个损失函数进行训练,获得迁移后的图像。

0%