Vision Transformer 演化史: CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

發表於 2021-12-03 更新於 2025-01-19 分類於電腦視覺整理 Disqus：文章字數： 4.1k 所需閱讀時間 ≈ 10 分鐘

論文網址：https://arxiv.org/pdf/2107.00652.pdf

Swin 原班人馬在 2021 7 月提出更進一步的網路架構 CSWin Transformer，提出全新的 Cross-Shaped Window self-attention 有著更好的特徵截取能力，以及更少的網路運算量

更提出新的位置資訊架構 LePE (Locally-enhanced Positional Encoding)，相較於原本的絕對位置 (APE) 或是相對位置 (RPE) 有著更好的表現

keywords: CSwin、LePE

Introduction

Self-Attention 的運算量過大，這是眾所皆知的事實，因此 Swin Transformer 藉由把 Patch 再切成更小的 Window 嘗試減少運算量，同時為了使 window 與 window 之間有關聯，Swin 把整個流程切成兩步 W-MSA 與 SW-MSA，藉由兩次不同位置的 window 來達成像素的關聯

而 CSwin 再進一步減少運算量的同時還加強了截取特徵的能力，使用有別於原本 Self-Attention 的 Cross-Shaped Window Self-Attention

如上圖，CSwin 分成垂直、水平 Attention 來取得像素間的關聯，且是利用把 multi head 分成兩半來達成，一半負責垂直部份，一半負責水平部份。這樣做的好處是可以在一步就完成不同 patch 像素間的關聯，而作者後續的實驗也證明 CSwin 相比 Swin 可以在使用更少的層達到相同的效果

上圖 b 則是類似 ViT 的方法全部圖片都做 Self-Attention，c 則是 Swin 的方法，e 與本文的 CSwin 有點類似，不同的點在於 e 是先做水平再做垂直的，與本文利用 head 一次做兩步有些許的差別

網路架構

網路架構圖如下圖所示：

與 Swin 架構類似，首先會經過 convolutional token embedding，也就是利用 7x7 conv stride 4 來得到 W/4 H/4 個 Patch。其實 ViT 也是利用 conv 來達來劃分 Patch 的目的，但是 ViT 的 conv 沒有 overlap，而 CSwin 這邊則有，有 overlap 的效果比沒有要好上一些

網路主架構分為四個 Stage，每個 Stage 會使用 3x3 conv stride 2 像 CNN 一樣不斷的減少圖片大小，同時增加特徵圖數量

本論文最特別的地方提出了 CSwin Self-Attetion，與傳統的 Self-Attetion 有著以下兩點的不同：

把 Self-Attention 換成了 Cross-Shaped Windows Self-Attention
為了增強 local inductive bias (局部的歸納偏置能力)，提出了全新的 LePE 架構

Cross-Shaped Window Self-Attention

為了提高局部像素之間的關系 (增加 Window 的大小)，同時顧及到運算量不要過大 (像 ViT 那樣與圖片大小呈平方關系)，CSWin 所使用的方法是利用水平及垂直的 stripe window 來做 Self-Attention

先來看水平的 stripe

每個 window 可表示成 \(X\)，而 \(X\) 的大小定義為 \(sw \times W\)，\(sw\) 代表為水平 window 的寬度，\(W\) 即為圖片的總寬度

每張圖片可以分割成相同大小的 \(M\) 個 \(X\)，且每個 \(X\) 不重疊，所以 \(M=H/sw\)

\[ \begin{gathered} X=[X^1,X^2,...,X^M] \quad \mathrm{where}\quad X^i\in \mathbb{R}^{(sw\times W)\times C}\quad \mathrm{and} \quad M=H/sw \end{gathered} \]

同時假設這些特徵來自第 \(k\) 個 head

接著把每個 \(X\) 也就是每個 window 彼此之間做 Self-Attention。

\[ \begin{gathered} Y^i_k = \mathrm{Attention}(X^iW^Q_k,X^iW^K_k,X^iW^V_k),\quad \mathrm{and} \quad i=q,...,M\\ W^Q_k,W^K_k,W^V_k \in\mathbb{R}^{C\times d_k} \end{gathered} \]

最後就得到的水平 (Horizontal) 方向的 CSwin 了

\[ \mathrm{H-Attention_k}(X)= [Y^1_k,T^2_k,...,T^M_k] \]

而垂直 (Vertical) 方向也是同理，公式與上面基本一樣，只有 \(M\) 的部份改為 \(M=W/sw\)

把 multi-head 的數量 \(K\) 分成兩半，一半給水平，一半給垂直，得到最後下列式子：

\[ \begin{gathered} \mathrm{CSWin-Attention}(X) = \mathrm{Concat}(\mathrm{head}_1,...,\mathrm{head}_K)W^O \end{gathered} \] \[ \mathrm{where} \quad \mathrm{head}_k =\left\{ \begin{aligned} \mathrm{H-Attention}_k(X) \quad k &= 1,...,K/2\\ \mathrm{V-Attention}_k(X) \quad k &= K/2+1,...,K \end{aligned} \right. \]