代码编织梦想

原文链接:

2022

CVPR 2022

MAT: Mask-Aware Transformer for Large Hole Image Inpainting [pdf] [code]

本文创新点:

  1. 开发了一种新颖的修复框架 MAT,是第一个能够直接处理高分辨率图像的基于 transformer 的修复系统。
  2. 提出了一种新的多头自注意力 (MSA) 变体,称为多头上下文注意力 (MCA),只使用有效的token来计算注意力。
  3. 设计了一个风格操作模块,使模型能够通过调节卷积的权重来提供不同的预测结果。

网络结构

网络分为粗修复与细修复两个阶段。粗修复主要由一个卷积头,五个transformer模块和一个卷积尾构成;细修复采用一个 Conv-U-Net 来细化高频细节。

Convolutional Head

卷积头主要由四个卷积层构成,将3*512*512的图像转换成180*64*64的特征图,用来提取token。

Transformer Body

本文对transformer模块进行了改进,一是删除了层归一化,二是将残差连接改成了全连接层。

删除层归一化的原因:在大面积区域缺失的情况下,大部分的token是无效的,而层归一化会放大这些无效的token,从而导致训练不稳定;

删除残差连接的原因:残差连接鼓励模型学习高频内容,然而在刚开始大多数的token是无效的,在训练过程中没有适当的低频基础,很难直接学习高频细节,如果使用残差连接就会使优化变得困难。

Multi-Head Contextual Attention

注意力模块利用移位窗口和动态掩码,只使用有效的token进行加权求和,

其中,表达式如下:

其中,为100。通过加上掩码,无效的token经过softmax后的权重几乎等于0。每次计算注意力后,将w*w大小的窗口的位置移动 (⌊  ⌋, ⌊  ⌋) 个位置,从而实现信息交互。

Mask Updating Strategy

更新规则:只要当前窗口有一个token是有效的,经过注意力后,该窗口中的所有token都会更新为有效的。如果一个窗口中的所有token都是无效的,经过注意力后,它们仍然无效。

Style Manipulation Module

它通过在带有额外噪声输入的重建过程中改变卷积层的权重归一化来操纵输出。为了增强噪声输入的表示能力,我们强制图像条件风格从图像特征X 和噪声无条件风格中学习,

其中,B为随机二值掩码(值为1的概率为p,为0的概率为1− p),εF都为映射函数,最终的风格是融合两种风格得到的

其中,A为映射函数,则卷积的权重W更新为

其中,i,j,k分别为输入通道,输出通道,卷积核的大小,ε为很小的常数。

损失函数

Adversarial Loss

Perceptual Loss.

Overall Loss

 

 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_51426525/article/details/128794218

cvpr 2017 sanet:《sanet: structure-aware network for visual tracking》论文笔记_nevermoreh的博客-爱代码爱编程

  理解出错之处望不吝指正。   本文模型叫做SANet。作者在论文中提到,CNN模型主要适用于类间判别,对于相似物体的判别能力不强。作者提出使用RNN对目标物体的self-structure进行建模,用于提升模型的鉴别相似物体的能力。模型的整体结构如下:   从图中我们可以看出,作者的主要创新点分为以下几部分:     (1)使用RNN提升模型

论文阅读:ganimation: anatomically-aware facial animation from a single image_王屋山下的鸡腿菇的博客-爱代码爱编程_ganimation

转载请注明本文出处,谢谢。 论文链接:GANimation: Anatomically-aware Facial Animation from a Single Image         我们首先来看一下它的效果图。这张图是从左边的输入图像生成笑的表情。这里有一个可以调节的参数α,用于调节表情的变化程度。所以说他生成的表情不是离散的。像

论文学习笔记(二) d-cnn: depth-aware cnn for rgb-d segmentation_wilber529的博客-爱代码爱编程

『写在前面』 继续学习基于深度学习的点云分割算法~~~在PointCNN之后,依次阅读了PointNet、PointNet++和Frustum Pointnets三部曲,然后才看的D-CNN。鉴于“三部曲”的篇幅较长且相关blog已经有很多朋友写过,今天我就先把D-CNN给码了,后面有时间再整理。本篇blog为方便自己回忆要点用,建议参照原版pa

[论文极简笔记]fbnet: hardware-aware efficient convnet design via differentiable neural architecture search_holeung的博客-爱代码爱编程

这是CVPR2019接收的一篇文章,个人觉得几篇思路比较雷同,但贵在实验做的完备,能自圆其说。 之前的架构搜索方法有两个缺点: 一个一个分离训练模型;FLOPs指标不够可靠。 新方法DNAS:

论文阅读笔记:Spatial-Spectral Transformer for Hyperspectral Image Classification-爱代码爱编程

Spatial-Spectral Transformer for Hyperspectral Image Classification 论文题目: Spatial-Spectral Transformer for Hyperspectral Image Classification下载链接: https://www.researchgate.net/pu

【论文精读】Seam Carving for Content-Aware Image Resizing-爱代码爱编程

文章目录 题目和摘要1.介绍2.方法3.能量函数的选择4.放大图像5.实现放大镜功能6.实现目标去除7.总结 题目和摘要 题目:Seam carving(接缝剪裁),Content-Aware(内容感知),Image Resizing(图像缩放) 可以看到,本文是通过某种接缝剪裁的“内容感知算法”来达到图像缩放的目的。 接缝通过图片的能

HAT: Hardware-Aware Transformers for Efficient Natural Language Processing论文解读-爱代码爱编程

paper: https://arxiv.org/pdf/2005.14187.pdf code: https://github.com/mit-han-lab/hardware-aware-transformers 1 介绍 Transformer网络取得了非常大的成功并具有广泛的应用。 然而由于它巨大的计算代价,使得部署到手机等端侧设备面临巨大的挑

Guidance and Evaluation: Semantic-Aware Image Inpainting for Mixed Scenes 论文解读和感想-爱代码爱编程

Guidance and Evaluation: Semantic-Aware Image Inpainting for Mixed Scenes 背景和动机 本文的基本出发点和SPG相似,都是通过获得缺失图像的完整语义分割图像,然后通过语义分割图像引导缺失图像的修复。但是相对于最原始的SPG模型,本文提出了其两个不足之处: 1、在混合场景,直接从缺失

论文阅读:STAR: A Structure-aware Lightweight Transformer for Real-time Image Enhancement-爱代码爱编程

近来transformer在cv领域十分火热,但是将其用于low-level方面的文章并不多,本文发表于ICCV2021,在此对文章做一个翻译与解读,具体细节内容请看文章,如有错误,请指正! 文章:pdf 代码:github 引用:Zhang, Zhaoyang, et al. “STAR: A Structure-Aware Lightweight

2022: LAVT: Language-Aware Vision Transformer for Referring Image Segmentation-爱代码爱编程

摘要         指代图像分割目的是从图像中分割出自然语言表达式指代的对象。我们表明,通过视觉transformer编码器网络中间层的语言和视觉特征的早期融合能够实现更好的跨模态对齐。通过在视觉特征提取编码阶段进行跨模态特征融合,我们可以利用transformer编码器中已被证明的相关建模能力提取有用的多模态上下文。通过这种方式可以获得正确的分割结果

论文阅读——image inpainting_行百里-半九十的博客-爱代码爱编程

目录 Image Inpainting Introduction BSCB修复算法 修复过程  扩散过程  Implementation details 修复过程 扩散过程  Results Image Inpainting Introduction 原文连接: Image inpainting (SIGGRAPH 200

谣言检测论文精读——11.safe: similarity-aware multi-modal fake news detection_头发没了还会再长的博客-爱代码爱编程

Abstract 作者指出现在的谣言检测文章很少考虑视觉和文本之间的关系(相似性),但是这种相关性是很重要的,比如说一个假新闻文章为了吸引读者的注意力,用了一张和文本毫不相干图片。所以作者提出了一个相似性感知假新闻检测模型

排坑日记2:could not find msvc/gcc/clang installation on this computer._笼子里的薛定谔的博客-爱代码爱编程

MAT论文代码复现 论文链接问题描述环境配置解决过程方案一方案二1.下载Microsoft Visual Studio19社区版本(17社区版本找了半天没找到,可能是官方下架了)2. 安装所需要的C++环境3.替换自

cvpr 2022 | 最全25+主题方向、最新50篇gan论文汇总-爱代码爱编程

一顿午饭外卖,成为CV视觉前沿弄潮儿  35个主题!ICCV 2021最全GAN论文汇总 超110篇!CVPR 2021最全GAN论文梳理 超100篇!CVPR 2020最全GAN论文梳理  在最新的视觉顶会CVPR2022会议中,涌现出了大量基于生成对抗网络GAN的论文,广泛应用于各类视觉任务; 下述论文已分类打包好!后台回复 

imageinpaint:图像修复_image inpainting-爱代码爱编程

文章目录 前言传统方法深度学习论文研读方法网络结构 参考 前言 传统方法 YearProceedingTitleTag2000SIGGRAPH 2000Image Inpaintin