Vision Transformer 演化史: CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows
論文網址:https://arxiv.org/pdf/2107.00652.pdf
Swin 原班人馬在 2021 7 月提出更進一步的網路架構 CSWin Transformer,提出全新的 Cross-Shaped Window self-attention 有著更好的特徵截取能力,以及更少的網路運算量
更提出新的位置資訊架構 LePE (Locally-enhanced Positional Encoding),相較於原本的絕對位置 (APE) 或是相對位置 (RPE) 有著更好的表現
keywords: CSwin、LePE