阅读论文《DeepFuse:A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs》

   这是2017 ICCV的一篇论文,感觉还是有点意思的,简要理解如下。
   论文要解决的问题是多曝光融合转换的方法需要很多LDR图像去获得整个场景的动态范围,其次获得更多曝光的图像会消耗很多。这篇文章的基本思路是做无监督的图像融合,整体结构如下所示:

   传统的方法是计算各个图像的权重然后局部或者全局的融合在一起。这里的思路是,图像的光照差异在L通道上比其他通道上的差异要大,而且结构信息主要也保留在L通道上,所以这里网络送进的是L通道的信息,其他两个通道通过加权方式融合获得最终的对应通道图。送入L通道信息的网络如下所示:

   网络是两个分支输入,两支网络使用相同的权重,这个网络有三个优点,首先是可以让网络学习相同的fearure类型对于一个输入对。其次,是两个特征相加的融合效果更好。最后,网络的参数量少,收敛快。融合的特征通过三个CNN层获得最后的输出。
   对于Loss,这里很有意思,将输出图表示为$y_f$,输入图经过一系列变换转换为$\hat{y}$(详见论文),最后的Loss是它们两个的基于SSIM的loss。这样转换的目的是为了获得全局的光照一致性。其他部分见论文。

0%