阅读论文《Gated Fusion Network for Single Image Dehazing》

   这是一篇做做dehaze的论文,属于增强领域的范畴,论文简要做了阅读,相关思想可以借鉴。论文的主要思想是通过学习三个confidential map对三个输入的预处理后的图像做相乘然后进行相加。具体介绍如下:

动机

   在dehaze的问题里,其需要解决两个问题,一个是由于大气光造成的颜色投射出现差异,一个是其传输过程中所造成的可视效果衰减。因此论文通过对原始图像进行处理,尽可能的分别恢复出其颜色投射、可视效果,同时由于可视效果太暗,再增加gamma矫正,将这三个图像和原始的image输入,这就是这篇论文的动机。

方法

   网络的核心思想就是学习confidence特征图去处理从原始图像获得的三张预处理后的图像,从而自动获得这三个图像特性在最后输出图像中所占的比例。

图像预处理(derived inputs)

   这里将图像分别用三种方法进行预处理,分别是进行白平衡操作(使用gray world假设,具体还不是很懂)恢复出由于大气光散射造成的颜色差异,进行图像对比度增强恢复出图像的可视效果,然后由于对比度增强的图可能导致图像过暗,还对原始图像做gamma变换做增强,这样就分别得到$I{wb}$,$I{ce}$和$I_{gc}$。

网络结构

   网络使用了encoder-decoder结构,这和unet很像,但是其所有的feature大小保持一样,其同样像unet一样使用了前后skip连接在一起的操作。卷积层为了获得更大的感受野使用了空洞卷积,每个卷积层后面加上一个矫正层,网络最后的输出是三个feature image,分别为$C{wb}$,$C{ce}$和$C_{gc}$,网络的结构图如下所示:

最后的输出为$J=C{wb}*I{wb}+C{ce}*I{ce}+C{gc}*I{gc}$

多尺度的Refine

   这部分比较好理解,通过对小尺度图像利用上述网络进行处理获得输出,然后输出进行上采样再送到同样的网络,这样做是为了学习得到更多的细节。每个级别的输入都是上一个级别输入大小的两倍,其相应的derived的预处理图像也是由上一个级别的输出图像得到的。这种级联的结构如下所示:

结果

   一堆表,没细看。但是有一点很有意思,就是说论文论证了自己使用的这个加权相加比平均相加要好,所以这么看来,多仿射变换的方案也许可以在图像增强类任务里有更好的效果。

0%