Vision Transformer 演化史: Going deeper with Image Transformers - CaiT 引入 LayerScale 及 class-attention layers 優化 DeiT
本篇論文是 Facebook AI 團隊在 2021 3 月所提出,作者 Hugo Touvron 與 DeiT 是同一個人。論文主要的貢獻有二:提出了 LayerScale 優化了 Transformer 的網路,以及 class-attention layers 進一步使得 class token 的使用變得更合理。
CaiT 沿用了 DeiT ViT 的核心精神,並再加入新概念加以改進,在 ImageNet 上取得了 86.3% 的 Acc1 performance,比原本的 DeiT 多了不少。
keywords: CaiT、LayerScale、class-attention layers