Swin Transformer: Hierarchical Vision Transformer using ShiftedWindows

  • Post author:
  • Post category:其他



目录


00 学习链接


01 研究背景


02 整体框架


2.1  Patch merging


2.2  基于窗口的自注意力机制(W-MSA)


2.3  基于移动窗口的自注意力机制(SW-MSA)


2.4  相对位置偏差计算


03 实验分析


3.1 分类任务表现


3.2 目标检测任务表现


3.3 语义分割任务表现​编辑


3.4 消融实验


04 总结


文献参考


00 学习链接

论文和实验链接:



Swin Transformer: Hierarchical Vision Transformer using Shifted Windows | Papers With Code


icon-default.png?t=M5H6
https://paperswithcode.com/paper/swin-transformer-hierarchical-vision


​视频讲解参考:



【沈向洋带你读论文】Swin Transformer 马尔奖论文(ICCV 2021最佳论文)_哔哩哔哩_bilibili


本期邀请的嘉宾是微软亚研院的首席研究员胡瀚老师。在本期,作者之一的他会和沈老师一同探讨获得了2021年ICCV 2021最佳论文Marr Prize的《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》。值得一提的是,本期拍摄的时候,该奖项还未宣布。论文详情页:https://readpaper.com/



https://www.bilibili.com/video/BV1hQ4y1e7js?spm_id_from=333.999.0.0&vd_source=711939c38bbd6809e3d4ec1bb84c88e4





Swin Transformer论文精读【论文精读】_哔哩哔哩_bilibili


更多论文见:https://github.com/mli/paper-reading



https://www.bilibili.com/video/BV13L4y1475U?spm_id_from=333.337.search-card.all.click&vd_source=711939c38bbd6809e3d4ec1bb84c88e4






12.1 Swin-Transformer网络结构详解_哔哩哔哩_bilibili


详细介绍了Swin-Transformer网络的具体结构,包括Patch partition,Windows Multi-head Self-Attention(W-MSA), Shifted Windows Multi-head Self-Attention(SW-MSA), 相对位置偏执(relative position bias)等。



https://www.bilibili.com/video/BV1pL4y1v7jC?spm_id_from=333.337.search-card.all.click&vd_source=711939c38bbd6809e3d4ec1bb84c88e4



文章作者回复:




Swin Transformer: Hierarchical Vision Transformer using Shifted Windows.-ReadPaper论文阅读平台


This paper presents a new vision Transformer, called Swin Transformer, that capably serves as a gene



https://readpaper.com/paper/3138516171


01 研究背景


由于CNN在图像处理中具有局部性(


locality


)和平移不变性(


Translation equivariance





,因此在很多


CV


领域都表现得很优秀,但随着任务复杂度的提高,


CNN


在一些任务上达不到很好的效果,引出了


VIT





Vision Transformer


)[1]。


VIT:Vision


Transformer[2]



CNN


优点:具有归纳偏置和平移不变性,可以轻易的提取到局部特征。


缺点:缺少全局注意力,泛化能力较弱。



VIT(Vision Transformer)


优点:具有全局注意力,能够处理比较复杂的下游任务,泛化能力较强。


缺点:对硬件计算能力要求高,输入的图像块尺寸固定,缺乏灵活性



Swin




Transformer


1.


继承


Vinsion


Transformer


:网络中没有卷积层(


CNN


)。


2.


能够利用到视觉信号中比较好的性质,


层次性





局部性





平移不变性




3.


计算复杂度低


,数据流与图片尺寸成线性相关。


02 整体框架

整体框架如下:

2.1 Patch merging


作用:缩小分辨率,调整通道数,减少计算量,类似于CNN中的池化。

2.2


基于窗口的自注意力机制(W-MSA)



MSA


操作:全局的patch做自注意力,其计算复杂度为:


W-MSA


操作:局部的patch做自注意力,其计算复杂度为:


优:减少运算量操作:将全局注意力转换为局部注意力,具有局部性


缺:块与块缺少交流

2.3


基于移动窗口的自注意力机制(SW-MSA)


这也是本篇论文的核心创新点:

2.4 相对位置偏差计算

详情参考论文[3]

03 实验分析


模型设置:

3.1 分类任务表现

3.2 目标检测任务表现


3.3 语义分割任务表现

3.4 消融实验

04 总结


本文提出了:


1.


使用了基于移动窗口的自注意力机制,使得计算复杂度降低。


2.


首次证明用


Transformer


作为骨干网络在语义分割和目标检测上的效果要比


CNN


好,终结了


CNN


在视觉的统治地位。


3.


将层次性、局部性和平移不变性等先验引入


Transformer


网络结构设计能帮助在视觉任务中取得更好的性能。


4.


由于用了统一的


Transformer


架构,从而可以结合


NLP





CV


进行融合处理,为多模态做了铺垫。


不足:


1.


牺牲了自注意力机制的全局性来节省运算的内存


2.


窗口分辨率低,只能在小图片上做处理

文献参考


[1] Naseer, Muhammad


Muzammal


, et al. “Intriguing properties of vision transformers.”



Advances in Neural Information Processing Systems



34 (2021).


[2]


Dosovitskiy


, Alexey, et al. “An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale.”



International Conference on Learning Representations



. 2020.

[3]Hang bo Bao, Li Dong, Furu Wei, Wenhui Wang, Nan Yang, Xiaodong Liu, YuWang, Jianfeng Gao, Song hao Piao, MingZhou, et al. Unilmv2: Pseudo-masked language models for unified language model pre-training. In International Conference on Machine Learning, pages 642–652. PMLR, 2020.



版权声明:本文为weixin_43409991原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。