Vision Transformer 演化史: Visual Transformers: Transformer in Transformer - 使用雙層 Transformer 來重新思考 Patch Embedding
很多人會覺得 (包括我 XD) ViT 的方法實在太神奇了,直接把圖片表示在 16x16 的字串?!然後竟然還可以 work?這篇論文覺得直接把二維轉換成一維流失了太多空間上的資訊了,包括圖片像素與像素之間的關系,提出了 TNT Transformer in Transformer 架構,希望可以以內外兩層 Transformer 來加強圖片轉序列的可解釋性及可行性。
https://arxiv.org/pdf/2103.00112
keywords: TNT、Transformer in Transformer、word embedding