国科大&中科院提出CANet：用于图像复原的拼接注意力网络

重磅干货，第一时间送达

本文转载自：AIWalker

标题&作者团队

Paper: https://arxiv.org/abs/2006.11162

Abstract

该文提出一种用于low-level视觉任务(包含压缩伪影移出、图像降噪)的通用框架，作者提出一种新颖的Concatenated Attention Neural Network(CANet)用于图像复原任务。该文的主要贡献包含以下几点：

通过简洁而有效的concat与特征选择机制，构件了一种新颖的连接机制；
在每个block内同时使用了像素级与通道级注意力机制，有助于提取更有强有力的特征；
通过充分实验验证了所提方法在压缩伪影移出与降噪方面的SOTA性能。

Method

下图给出了该文所提网络的整体流程图，它包含N个注意力模块与跳过连接，每个注意力模块又包含多个带注意力机制的block。

image-20200816162337971

我们假设

I_{LQ}

表示低质图像，

I_{HQ}

表示高质图像，那么第一个卷积层将用于提取特征

F_0

F_0 = H_{FE}(I_{LQ})

其中

H_{FE}()

表示卷积操作，它将输入从像素空间变换到特征空间。在此基础上，继续提取特征：

F_1 = H_{A_1}(F_0)

其中

H_{A_1}()

表示第一个注意力模块。

F_1

将用于全局残差学习，继续按照如下方式提取特征：

F_n = H_{A_n}(H_{Alayer}(concatenate(F_{n-1}, F_{n-2})))

其中

F_n

表示第n个注意力模块的输出。在网络的输出端，作者将前面所有输出的特征进行组合：

O_F = H_{FF}(concatenate(F_0,F_1,cdots,F_n))

其中

H_{FF}

表示集成融合操作，与此同时，作者还将输入添加到了重建模块：

O_{HQ} = conv(O_F) + I_{LQ}

事实上，对图像超分有一定了解的朋友可以看出来；上述网络其实就是RDN结构，区别仅在于每个模块的表现形式。

Attention Residual Block

关于Block这里好像并没有什么值得深入介绍的，直接上图咯。下图给出了图像超分领域用的比较多的几个：SRGAN中的模块(见下图a)、EDSR中的ResBlock(见下图b)、RCAN中的模块(见下图c)以及本文提出的注意力模块(下图d)。下面四个图基本上也代表了图像分类网络结构在图像超分应用的演变过程，以后可能还会有类似SKNet、ResNeSt、Res2Net等形式在low-level中的应用，再看到就没什么好意外的了。

image-20200816163708971

上面提到了核心模块的构成示意图，接下来再看一下PA与CS的结构示意图，见下图。其实非常简单的，略过。

image-20200816164114691

Loss Function

在图像复原领域，常见的损失函数主要包含

L_1, L_2

及其变种、感知损失、对抗损失等等。为更公平的与其他方法(比如RNAN、IDCN)进行对比，作者采用了

L_2

损失函数：

L(theta) = frac{1}{N} sum_{i=1}^{N} |O_{HQ} - I_{HQ} |^2

注：CANet包含5个注意力模块，每个注意力模块包含6个残差模块，卷积核的尺寸为

3 times 3

，通道数为64.

Experiments

直接上结果了，训练过程没什么好介绍的，都是非常基本的操作。下表给出了LIVE1、BSDS500、WIN143数据集上的效果对比。

image-20200816164759974

下表给出了Urban100、CBSD68数据集上的效果对比。

image-20200816164832427

最后看一下所提方法的视觉效果图吧。

image-20200816164933978

全文到此结束，对该文感兴趣的同学建议去看一下原文。