mushding 的小小天地

歡迎來到 mushding 的雜七雜八生活筆記

本篇論文是 Facebook AI 團隊在 2021 3 月所提出,作者 Hugo Touvron 與 DeiT 是同一個人。論文主要的貢獻有二:提出了 LayerScale 優化了 Transformer 的網路,以及 class-attention layers 進一步使得 class token 的使用變得更合理。

CaiT 沿用了 DeiT ViT 的核心精神,並再加入新概念加以改進,在 ImageNet 上取得了 86.3% 的 Acc1 performance,比原本的 DeiT 多了不少。

keywords: CaiT、LayerScale、class-attention layers

閱讀全文 »

如果 CNN 可以透過增加網路深度來使效果更好,那 Transformer 呢?此篇作者發現,如果 Transformer 想要仿照 CNN 一樣加深度的話,效果不增反減,作者稱為注意力坍塌 (attention collapse),因而提出了 Re-attention 機制,來取代原本的 Self-Attention。

https://arxiv.org/pdf/2103.11886.pdf

keywords: attention collapse、Re-attention

閱讀全文 »

2021 年 1 月 Google 提出了 BoTNet 架構,其最核心的思想就是替換 ResNet 中的 Bottleneck,把最後幾層的卷積層 (Conv) 替換為 Multi-Head Self-Attention (MHA)。實驗證實在僅僅只修改幾層網路下,BoTNet 在實例分割任務上取得了 44.4% 的 Mask AP 與 49.7%的 Box AP,與純 ResNet 相比,在分類、分割任務上皆有效能上的提升,同時還可以降低參數量

https://arxiv.org/pdf/2101.11605.pdf

keywords: BoT、Bottleneck

閱讀全文 »

最近二級警戒有比較趨緩,趁著快要開學了趕緊跟家人一起出去玩一波。這一次選的地方是位在基隆外海的基隆嶼,單純抱著從來沒有上去過的新奇感,於是立馬手刀買了三張船票,隔天馬上開車上基隆出海去囉 XD。

keywords: 基隆嶼、龍洞

閱讀全文 »

這篇論文是南京大學、香港大學在 2021 2 月提出的,這篇論文提出了 Pyramid Vision Transformer (PVT) 架構,其實就是把 CNN 已經非常廣泛使用的概念搬到 ViT 上面來。主要創新點包含兩點:Progressive shrinking stategy 加入金字塔網路、Spatial Reduction Attention 減少運算量。

https://arxiv.org/pdf/2102.12122.pdf

keywords: PVT、Progressive shrinking stategy、Spatial Reduction Attention

閱讀全文 »

這篇論文發表在 CvT、CeiT 之前,但想要解決的問題是一樣的 (解決分 patch、運算量大等…)。CvT、CeiT 是使用 CNN 來解決問題,而 T2T-ViT 則是使用 Token-to-Tokens 來解決問題。

https://arxiv.org/pdf/2101.11986.pdf

keywords: T2T-ViT

閱讀全文 »

Convolution-enhanced image Transformer (CeiT),與 CvT 的想法相同,都是想要藉助 CNN 的力量來改善 Transformer 的效能,而這兩篇論文提出的時間差不多,基本上思路也差不多,以下會簡單帶過

https://arxiv.org/pdf/2103.11816.pdf

keywords: CeiT

閱讀全文 »

作者提出了新架構:Convolutional vision Transformer (CvT),試著把 CNN 與 Transformer 做結合,並各取所長。

CvT 同時擁有了 CNN 的優點 (local receptive fields 局部感受視野, shared weights 權重共享, spatial subsampling 空間下採樣)

以及 Transformer 的優點 (dynamic attention 動態的注意力機制, global context fusion 更關注全局訊息的整合, better generalization 更好的歸化能力)

https://arxiv.org/pdf/2103.15808.pdf

keywords: CvT

閱讀全文 »

在上一篇 Transformer 中我們提到作者使用 zero padding 來當作位置資訊的考量,在這一篇文章中我引用了兩篇論文來更進一步了解一下,CNN 與絕對位置之間的關系。分別是 Uber 提出的 coordConv 以及一篇專門解釋 zero padding 的文章。

https://arxiv.org/abs/1807.03247 (coordConv)

https://arxiv.org/pdf/2101.12322.pdf (zero padding)

keywords: zero padding、coordConv

閱讀全文 »

論文提出 Conditional Positional Encoding (CPE) 模組,以及應用 CPE 模組的 Conditional Position encoding Vision Transformer (CPVT) 網路架構,負責來解決 Transformer 輸入圖片大小要固定的問題。

keywords: CPVT、CPE、PEG、zero padding

閱讀全文 »