几个视频超分辨网络2

VESPCN

   比较早的一个做视频超分的论文,是在ESPCN基础上做出的改进,将动作补偿和视频超分辨联合起来进行端到端的训练。对于视频超分辨来说,同一个场景不同帧之间的信息之间存在冗余,这个是可以限制求解空间的。视频超分问题的一个先验是,同一场景的视频图像可以被单幅图像和运动模式所近似。因此该论文借鉴了STN里推断两个图像的映射参数,将其用在视频运动补偿里,实现视频超分,整体框架如下所示:

上采样采用的是subpixel shuffle的形式,这里就不说了。Spatio-temporal网络采用的是3D conv,其是slow fusion的一种权重共享形式,如下所示:

spatial transformer motion compensation网络如下所示,先估计一个粗糙的光流得到粗糙的目标帧,然后这两个再和原始的两个帧输入网络得到精细的光流。最后将精细的光流和粗糙的光流对原始的两帧进行warp得到最后的帧,输出使用tanh激活函数。warp过程就是用STN实现的。为了训练这个网络,作者设置了MSE损失和Huber loss两种损失。
   实验发现多帧效果比单帧要好,但是帧数太多也会导致性能下降。
参考:
https://blog.csdn.net/u014447845/article/details/89928794

Detail-revealing Deep Video Super-resolution

   视频超分辨主要关注:1.如何充分利用多帧关联信息;2.如何有效融合图像细节到高分辨率图像中。论文提出SPMC,用来进行有效的动作补偿和特征图缩放,同时使用LSTM处理多帧输入。整体框图如下所示:

ME就是motion estimation,这里作者使用运动补偿转换MCT去实现,获得运动补偿估计F。
然后是运动补偿模块SPMC,这里令LR和HR图像分别是$J^L$和$J^H$,后者通过前者结合光流F得到,公式比较复杂,这里懒得写了。
下面获得的$J^H$是比较稀疏的,这里设计一个encoder-decoder结构,使得特征图不稀疏,多帧图片进入LSTM模块,处理帧内关键信息,然后再反卷积。
训练时分别训练,先训练ME的部分,再固定前面训练后面ST的部分,最后联合训练。
参考:
https://blog.csdn.net/Cyiano/article/details/78368271

Fast Spatio-Temporal Residual Network for Video Super-Resolution

   19年的CVPR,如果直接使用运动补偿,会有巨大的计算量且要人为设计结构。如果要自动计算时空信息,就会使用三维卷积,但是会引入大量参数,导致深度不够,效果不好。这篇论文使用p3d进行改进,整体结构如下:

整体包括,低分辨率特征提取LFENet,快速时空残差模块(FRBs),低分辨率特征融合和上采样超分辨网络(LSRNet),全局残差学习(GRL)。。第四部分由低分辨率空间残差学习(LRL)和交叉空间残差学习(CRL)组成(最上面的那个部分)。

LFENet:使用一个C3D层对初始的输入低分辨图像做一个特征提取,交给后面的FRBs处理。
FRBs:对前面那个LFENet输出做进一步处理,堆叠多个网络,里面有残差连接。
LSRNet:就是对上采样后的图像的一个融合

P3D模块由C3D演变而来,C3D使用了3维卷积,所谓3维卷积就是卷积核是三维的,这里对3维卷积做了拆分,如下所示:

在残差连接部分,这里的LRL残差就是在多个FRB后面,将第一个的输入和最后一个的输出相加。CRL是将原始的输入低分辨率图像作上采样,和最后的输出相加。
参考:https://blog.csdn.net/qq_29595303/article/details/97136201

0%