【论文笔记】Learning Convolutional Networks for Content-weighted Image Compression-爱代码爱编程

2022-03-25 分类: 新星计划论文深度学习 python 计算机视觉

2 Related work

Balle 使用GDN(generalized divisive normalization)

content-weighted image compression system 在rate loss quantization continuous relaxation不同。在importance map上面定义rate loss，使用一个简单的二值化器来量化。
基础结构

3 Content-weighted Image Compression

3.1.1 encoder 和decoder

Encoder 和decoder都是全连接层，可以后向训练。

encoder由三个卷积层和3个残差块组成。每个残差块有2个卷积层，使用时移除原始的残差块的BN。输入图像 $x$ 由128个 $\times 8$ 步长为4的过滤器卷积，随后用1个残差块。然后特征图用256个 $\times 4$ 步长为2的过滤器卷积，接着2个残差块，从而生成中间的特征图 $f (x)$ 。最后特征图 $f (x)$ 用 $m$ 个 $\times 1$ 的过滤器产生encoder结果 $E (x)$ 。少于0.5bpp的模型设置 $n = 64$ ，否则设为 $n = 128$ 。

decoder $D (c)$ 的网络结构和encoder对称， $c$ 是图像的code。

Encoder

decoder

Binarizer

$e_{ijk}是e$ 的元素

由于导数基本为0，不利于back-propagation，受到binarized neural networks（BNN）的影响，因此修改为

得到的偏导是

Importance map

在Balle提出的网络中，量化之后的码字长度是空间不变的，压缩是通过熵编码实现的。然而作者认为，一幅图像中不同部分分配的比特数应该是不一样多的，因此作者提出了importance map用于比特分配以及压缩率控制。

将encoder的最后一个残差块的特征图作为importance map的输入，使用3层卷积网络产生了importance map $p = P (x)$ 。

对于importance map的每个元素 $p_{ij}$ 计算importance mask m。首先计算量化值，每个 $p_{ij}$ 都转为不超过 $n$ 的整数值（ $n$ 是特征图的数量）：

在这里插入图片描述

L是重要程度， $\; mod \;L = 0$ 。Each important level is corresponding to $\frac{n}{L}$ bits.

重要性图不仅可以被视为熵率估计的替代方案，而且还可以自然地考虑上下文。

importance mask m：

假设每一个feature map的每一个(i,j)位置分配1bit，那么原本共需要 $\times h \times w$ ，现在只需要 $\frac{N}{L}\sum_{i,j}Q(p_{ij})$ bits。

两个式子可以合并写成

对应的偏导：

最终的编码结果是 $\circ B(e)$ 。

也就是将importance mask m和二值量化结果点乘。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ruVhtWAR-1647441363283)(C:\Users\s50018299\AppData\Roaming\Typora\typora-user-images\image-20210826105239854.png)]$

具有锐边或丰富纹理的区域通常具有较高的值，并应分配更多的位来编码。

Model formulation

模型的目标函数是

$\mathcal{L}=\sum_{x \in \chi}{\mathcal{L}_D(c,x) + \gamma\mathcal{L}_R(x)}$

$\mathcal{L}_D(c,x)$ 代表失真loss， $\mathcal{L}_R(x)$ 表示码率loss。

失真loss

衡量原始图像和解码结果的差异： $\mathcal{L}_D(c,x)=||D(c)-x||^2_2$

码率loss

码率loss直接定义为码长度的连续估计。假定encoder的结果 $E (x)$ 的是 $n\times h \times w$ 。码分成两部分：1）quantized importance map $Q (p)$ ，为 $\times w$ ；2）修剪的二值码流 $\frac{N}{L}\sum_{i,j}Q(p_{ij})$ 。第一部分对encoder和importance map network而言是常量，因此 $\frac{N}{L}\sum_{i,j}Q(p_{ij})$ 可以直接被用来作为码率loss。由于Q(p_ij) 不可导，relax Q(p_ij)如下

$\mathcal{L}_R^0(c,x)=\sum_{i,j}(P(x))_{ij}$

使用阈值r修改码率loss如下

Convolutional entropy encoder

CABAC

使用CABAC进行二值算术编码。文章在这个框架下面进行修改。

Context modeling

$c_{kij}$ 的context记为 $CNTX(c_{kij})$ ， $CNTX(c_{kij})$ 是一个 $5\times 5\times 4$ 的长方体。 $CNTX(c_{kij})$ 分为有用和无用的2组。有用的表示可以用来预测 $c_{kij}$ 。无用的包含：1)待预测bit $c_{kij}$ ，2）importance map值为0，3)范围外，4)未能被编码。 $CNTX(c_{kij})$ 的编码方式：1）无用的编为0，2）值为0的无用的bits编为1，3）值为1的编为2

在这里插入图片描述

红色块表示要预测的位；深色块表示不可用位；蓝色块表示可用位。

概率预测

常用方法是建立维持一个频率表。由于长方体过大，因此改为CNN模型。

$E(CNTX(c_{kij}))$ 将长方体作为输入，输出是 $c_{kij}$ 为1的概率。

损失函数可以写作：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cHpfGg3X-1647441363286)(C:\Users\s50018299\AppData\Roaming\Typora\typora-user-images\image-20210823153556690.png)]$

encoder用ADAM训练。

实验

数据：ImageNet的一个有大约10000张高质量的子集。将图片裁剪成 $128 \times 128$ 的片，用这些片来训练网络。训练好后运用在Kodak PhotoCD图像数据集上。

对比JPEG，JPEG 2000，Balle的CNN模型，使用MSE、PSNR、SSIM评价。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WnAZPsRs-1647441363287)(C:\Users\s50018299\AppData\Roaming\Typora\typora-user-images\image-20210823161544790.png)]$